La start-up californienne World Labs livre un aperçu de l’avenir de l’IA générative en 3D

Le 2 décembre, la start-up World Labs — devenue en septembre une licorne avec sa levée de fonds de 230 millions de dollars — a présenté en ligne les premiers résultats de son IA générative capable de générer des mondes en 3D, où les utilisateurs peuvent interagir directement.

Imaginez : vous soumettez une de vos photos ou images à une IA générative et celle-ci va créer pour vous un monde en trois dimensions (3D) où vous pourrez évoluer à partir du navigateur de votre ordinateur ou de votre smartphone. Bienvenus dans l’« intelligence spatiale ». C’est cet exploit technologique de génération d’une géométrie en 3D que promet de généraliser prochainement la jeune pousse cofondée en janvier 2024 par la chercheuse et professeure Fei-Fei Li (photo), sa PDG, Ben Mildenhall (ex-Google), Justin Johnson (ex-Meta) et Christoph Lassner (ex-Meta).

Films, jeux, … révolution « GenAI 3D »
Pour l’instant, des aperçus navigables par tous ont été mis en ligne depuis le 2 décembre (1), tandis que seulement « quelques créateurs » peuvent expérimenter l’IA générative 3D. Les autres doivent s’inscrire sur une liste d’attente (2), en prévision du prochain lancement. « Nous travaillons dur pour mettre cette technologie entre les mains des utilisateurs dès que possible ! », a assuré World Labs dans sa présentation du 2 décembre. « A partir d’une image d’entrée, notre système estime la géométrie 3D, remplit les parties invisibles de la scène, invente de nouveaux contenus pour que vous puissiez vous retourner, et génère une grande variété de types de scènes et de styles artistiques », explique-t-elle. Et de préciser : « Nos scènes 3D peuvent être rendues en temps réel dans le navigateur avec un contrôle total de la caméra. Cela signifie que vous pouvez les explorer avec une caméra en mouvement libre comme dans un jeu vidéo, ou même simuler des effets de caméra 3D comme une faible profondeur de champ ou un zoom chariot » (3). Une fois dans son navigateur, l’utilisateur évolue en temps réel dans le nouveau monde 3D, comme avec une caméra virtuelle, à l’aide de ses touches « WASD » sur un clavier Qwerty, ou avec les touches « ZQSD » pour un clavier Azerty à la française : Z pour avancer, Q pour aller à gauche, S pour reculer, D pour aller à droite. Avec la souris, il suffit de cliquer et de faire glisser pour regarder autour. (suite)


Cette performance « GenAI 3D » intervient au moment où Midjourney, la société derrière l’IA générative du même nom, a aussi un projet 3D sous le nom de code « Orb ». Evoquée sur le réseau social Discord en octobre par David Holz, le fondateur PDG de Midjourney (4), une fonctionnalité d’intelligence spatiale devrait apparaître avec la version 7 de Midjourney attendue d’ici la fin l’année. Au lieu d’utiliser le rendu polygonal traditionnel, Midjourney développe un nouveau format de type NeRF (Neural Radiance Fields), qui permet aux utilisateurs de s’immerger virtuellement dans des images générées par l’IA. Cette technique d’apprentissage automatique utilisant un réseau de neurones permet de représenter des scènes et des objets en 3D à partir d’images 2D. « Ce n’est qu’un aperçu de l’avenir de l’IA générative native 3D », indique World Labs en montrant ses premiers mondes immersifs en 3D générés à partir d’une seule image. Si la plupart des IA génératives créent du contenu 2D comme des images ou des vidéos, générer en trois dimensions par l’IA (5) changera la façon de produire des films, des jeux, des métavers, des simulateurs ou encore des représentations numériques du monde physique (réalité virtuelle et réalité augmenté). La caméra virtuelle est même capable d’effectuer des « travelling contrariés », ce que les cinéastes appellent aussi un dolly zoom.
World Labs se définit comme « une société d’intelligence spatiale qui construit de grands modèles mondiaux pour percevoir, générer et interagir avec le monde 3D ». Pour financer le développement de ses « Large World Model » (LWM), la start-up a levé jusqu’à ce jour – du moins à septembre 2024, soit en neuf mois d’existence – plus de 230 millions de dollars auprès d’investisseurs emmenés par le fonds américain Andreessen Horowitz, NEA et Radical Ventures (6). NVentures, la branche de capital-risque de Nvidia, numéro un mondial des puces GPU/IA, ainsi qu’Adobe Ventures et AMD Ventures sont dans le tour de table où l’on compte aussi Eric Schmidt, l’ancien PDG de Google.

Fei-Fei Li, d’ImageNet à World Labs
La PDG cofondatrice de World Labs, Dre. Fei-Fei Li, est surnommée « la marraine de l’IA » – « The Godmother of AI » (7). Pionnière de l’IA dans le domaine de la vision par ordinateur (elle est à l’origine d’ImageNet dans les années 2010), elle est chercheuse et professeure en intelligence artificielle « centrée sur l’être humain » à l’université américaine de Stanford (8). Née il y a 48 ans en Chine, où elle a grandi jusqu’à ses 16 ans avant d’émigrer avec sa mère aux Etats-Unis pour rejoindre son père, Fei-Fei Li est de nationalité américaine. En 2017, elle a fondé AI4All, une organisation à but non lucratif (9) pour promouvoir la diversité dans l’IA. De son côté, Google a lancé le 4 décembre Genie 2 (10), son modèle d’IA pour créer des mondes 3D jouables. @

Charles de Laubier