La bataille des IA génératives d’images et de vidéos s’exacerbe, avec les Etats-Unis en force

Après deux ans de bataille des IA génératives textuelles, déclenchée fin novembre 2022 par ChatGPT d’OpenAI, l’année 2025 s’annonce comme celle des IA génératives d’images et de vidéos. Edition Multimédi@ passe en revue une sélection de concurrents, tous d’origine américaine. Mais les chinois sont en embuscades.

Grok
Pays d’origine : Etats-Unis
Propriétaire : xAI (Elon Musk)
Lancement : novembre 2023
Générateur de textes et d’images
https://x.ai/grok, https://x.com/i/grok
Disponibilité : gratuit depuis le 14-12-24
Accessible en France : oui
Remarque : Grok est développé par la start-up xAI créé en juillet 2023 par le milliardaire Elon Musk (cofondateur d’OpenAI qu’il a quitté en 2018). En plus de générer du texte, Grok peut aussi faire de même en créant des images réalistes grâce à son modèle text-to-image Aurora.

Sora
Pays d’origine : Etats-Unis
Propriétaire : OpenAI (Sam Altman)
Lancement : février 2024
Générateur de vidéo ultraréalistes
https://openai.com/sora, https://sora.com
Disponibilité : payant dans ChatGPT Plus et Pro
Accessible en France : non
Remarque : Sora est un modèle de type text-to-video développé par OpenAI, déjà à l’origine de ChatGPT, lequel intègre Sora depuis début décembre 2024 via les abonnements payants ChatGPT Plus et ChatGPT Pro. Sora signifie en japonais « ciel » (potentiel illimité). (suite)

Dall-E
Pays d’origine : Etats-Unis
Propriétaire : OpenAI (Sam Altman)
Lancement : janvier 2021
Générateur d’images
https://openai.com/index/dall-e-3, https://chatgpt.com
Disponibilité : gratuit (limité) et payant (au-delà)
Accessible en France : oui
Remarque : Dall-E est le pionnier du text-to-image grand public, développé par OpenAI (ChatGPT). Sa version actuelle, Dall-E 3, est disponible depuis septembre 2023, intégrée depuis dans ChatGPT via les abonnements payants ChatGPT Plus et Enterprise.

Gen (Gen-2, Gen-3)
Pays d’origine : Etats-Unis
Propriétaire : Runway AI
Lancement : février 2023
Générateur de vidéos
https://runwayml.com, https://app.runwayml.com
Disponibilité : gratuit (limité) et payant (au-delà)
Accessible en France : oui
Remarque : La start-up newyorkaise Runway AI a été créée en 2018 par les Chiliens Cristóbal Valenzuela et Alejandro Matamala, ainsi que par le Grec Anastasis Germanidis. Ses modèles sont de type text-to-video et video-to-video, utilisés notamment par des producteurs de films.

Firefly
Pays d’origine : Etats-Unis
Propriétaire : Adobe
Lancement : mars 2023
Générateur d’images, de vidéos et d’audio
https://firefly.adobe.com
Disponibilité : gratuit (limité, sur inscription) ou payant (entreprises)
Accessible en France : oui
Remarque : Abobe, éditeur des logiciels de création Photoshop, Acrobat, Illustrator et Premiere Pro, a lancé la première version de Firefly en mars 2023. Le modèle text-to-video a été lancé en octobre 2024 en version bêtapublique limitée (sur inscription en liste d’attente).

Midjourney
Pays d’origine : Etats-Unis
Propriétaire : Midjourney
Lancement : juillet 2022
Générateur d’images
https://www.midjourney.com/explore
Disponibilité : payant (abonnements)
Accessible en France : oui
Remarque : La start-up californienne Midjourney a été créée par David Holz. La version actuelle, la V6.1, a été lancée fin juillet 2024. Le mois suivant, elle a été rendue accessible à partir du Web et non plus seulement à partir de Discord comme auparavant.

Se sont aussi jetés dans la bataille du text-to-image et du texte-to-video : le chinois ByteDance (maison mère de TikTok) avec X-Portrait 2 et MagicVideoV2 ; le chinois Faceu Technology (filiale de ByteDance) avec Jimeng AI ; le chinois Kuaishou Technology avec Kling ; le chinois Zhipu AI avec Ying ; le chinois Shengshu Technology avec Vidu ; l’américain Google (Alphabet) avec Lumiere ; son compatriote Meta avec Make-A-Video et Movie Gen ; le français Turbo Studio avec Submagic ; la britannique Synthesia avec Synthesia ; la californienne World Labs avec « GenAI 3D » (lire EM@334, p. 5).