La bataille des IA génératives d’images et de vidéos s’exacerbe, avec les Etats-Unis en force

Après deux ans de bataille des IA génératives textuelles, déclenchée fin novembre 2022 par ChatGPT d’OpenAI, l’année 2025 s’annonce comme celle des IA génératives d’images et de vidéos. Edition Multimédi@ passe en revue une sélection de concurrents, tous d’origine américaine. Mais les chinois sont en embuscades.


Grok
Pays d’origine : Etats-Unis
Propriétaire : xAI (Elon Musk)
Lancement : novembre 2023
Générateur de textes et d’images
https://x.ai/grok, https://x.com/i/grok
Disponibilité : gratuit depuis le 14-12-24
Accessible en France : oui
Remarque : Grok est développé par la start-up xAI créé en juillet 2023 par le milliardaire Elon Musk (cofondateur d’OpenAI qu’il a quitté en 2018). En plus de générer du texte, Grok peut aussi faire de même en créant des images réalistes grâce à son modèle text-to-image Aurora.


Sora
Pays d’origine : Etats-Unis
Propriétaire : OpenAI (Sam Altman)
Lancement : février 2024
Générateur de vidéo ultraréalistes
https://openai.com/sora, https://sora.com
Disponibilité : payant dans ChatGPT Plus et Pro
Accessible en France : non
Remarque : Sora est un modèle de type text-to-video développé par OpenAI, déjà à l’origine de ChatGPT, lequel intègre Sora depuis début décembre 2024 via les abonnements payants ChatGPT Plus et ChatGPT Pro. Sora signifie en japonais « ciel » (potentiel illimité). (suite)


Dall-E
Pays d’origine : Etats-Unis
Propriétaire : OpenAI (Sam Altman)
Lancement : janvier 2021
Générateur d’images
https://openai.com/index/dall-e-3, https://chatgpt.com
Disponibilité : gratuit (limité) et payant (au-delà)
Accessible en France : oui
Remarque : Dall-E est le pionnier du text-to-image grand public, développé par OpenAI (ChatGPT). Sa version actuelle, Dall-E 3, est disponible depuis septembre 2023, intégrée depuis dans ChatGPT via les abonnements payants ChatGPT Plus et Enterprise.


Gen (Gen-2, Gen-3)
Pays d’origine : Etats-Unis
Propriétaire : Runway AI
Lancement : février 2023
Générateur de vidéos
https://runwayml.com, https://app.runwayml.com
Disponibilité : gratuit (limité) et payant (au-delà)
Accessible en France : oui
Remarque : La start-up newyorkaise Runway AI a été créée en 2018 par les Chiliens Cristóbal Valenzuela et Alejandro Matamala, ainsi que par le Grec Anastasis Germanidis. Ses modèles sont de type text-to-video et video-to-video, utilisés notamment par des producteurs de films.


Firefly
Pays d’origine : Etats-Unis
Propriétaire : Adobe
Lancement : mars 2023
Générateur d’images, de vidéos et d’audio
https://firefly.adobe.com
Disponibilité : gratuit (limité, sur inscription) ou payant (entreprises)
Accessible en France : oui
Remarque : Abobe, éditeur des logiciels de création Photoshop, Acrobat, Illustrator et Premiere Pro, a lancé la première version de Firefly en mars 2023. Le modèle text-to-video a été lancé en octobre 2024 en version bêtapublique limitée (sur inscription en liste d’attente).


Midjourney
Pays d’origine : Etats-Unis
Propriétaire : Midjourney
Lancement : juillet 2022
Générateur d’images
https://www.midjourney.com/explore
Disponibilité : payant (abonnements)
Accessible en France : oui
Remarque : La start-up californienne Midjourney a été créée par David Holz. La version actuelle, la V6.1, a été lancée fin juillet 2024. Le mois suivant, elle a été rendue accessible à partir du Web et non plus seulement à partir de Discord comme auparavant.

Se sont aussi jetés dans la bataille du text-to-image et du texte-to-video : le chinois ByteDance (maison mère de TikTok) avec X-Portrait 2 et MagicVideoV2 ; le chinois Faceu Technology (filiale de ByteDance) avec Jimeng AI ; le chinois Kuaishou Technology avec Kling ; le chinois Zhipu AI avec Ying ; le chinois Shengshu Technology avec Vidu ; l’américain Google (Alphabet) avec Lumiere ; son compatriote Meta avec Make-A-Video et Movie Gen ; le français Turbo Studio avec Submagic ; la britannique Synthesia avec Synthesia ; la californienne World Labs avec « GenAI 3D » (lire EM@334, p. 5).

La position dominante de Nvidia sur le marché mondial des puces IA soulève des questions « antitrust »

Le géant mondial Nvidia, fabricant américain de microprocesseurs pour l’intelligence artificielle, est non seulement le premier à alimenter la « bulle IA » mais aussi en position dominante sur ce marché colossal. Les autorités antitrust veulent agir avant qu’il ne soit trop tard pour la concurrence.

Après avoir été la première capitalisation boursière mondiale, le groupe Nvidia est redevenu la seconde à 3.314 milliards de dollars au 29 novembre 2024 (au moment où nous bouclons ce numéro de Edition Multimédi@), derrière Apple (3.551 milliards de dollars), Microsoft (3.144 milliards), Amazon (2.163 milliards) ou encore Alphabet/ Google (2.080 milliards), d’après CompaniesMarketCap (1).
C’est en juin (2) que la firme californienne de Santa Clara – où elle a son siège social depuis sa création le 5 avril 1993 par l’AméricanoTaïwanais (3) Jensen Huang (photo), son actuel PDG – est arrivée pour la première fois en tête de toutes les entreprises cotées dans le monde. Depuis le lancement par OpenAI fin novembre 2022 de l’IA générative ChatGPT qui carbure aux puces pour l’intelligence artificiel, dont Nvidia est devenu le numéro un mondial des fabricants, le cours de l’action « NVDA » a été multipliée par plus de huit. Microsoft, Google ou encore Amazon font aussi partie des nombreuses Big Tech qui se fournissent auprès de Nvidia. Samedi dernier, 23 novembre, Jensen Huang s’est vu décerner un doctorat honorifique en ingénierie (4) de l’Université des sciences et technologies de Hong Kong (Hkust). Détenteur d’environ 3 % du capital de l’entreprise Nvidia, cotée au Nasdaq à New-York depuis janvier 1999, il est devenu à 61 ans la onzième plus grande fortune mondiale, après avoir vu son patrimoine professionnel bondir de 250 % entre 2023 et 2024, à 118,2 milliards de dollars (5).

Prévision de résultats annuels records
En plus d’être devenu le plus grand fabricant de processeurs graphiques, appelés GPU (Graphics Processing Unit), qui excellent notamment pour les jeux vidéo sur ordinateur, Nvidia a aussi étendu sa position dominante dans l’intelligence artificielle qui exige également d’immenses puissances de calcul. Lors de la présentation le 20 novembre de ses résultats financiers pour son troisième trimestre qui s’est achevé fin octobre (le groupe ayant la particularité d’avoir son année fiscale décalée d’un mois par rapport à l’année calendaire), Nvidia a estimé qu’il terminera son exercice 2024/2025 (clos le 26 janvier) avec un chiffre d’affaires annuel record d’environ 128,6 milliards de dollars. Ce record correspond à un peu plus du double (+ 111,19 %) du chiffre d’affaires de l’année précédente (60,9 milliards de dollars à fin janvier 2024) et presque un quintuplement sur deux ans (26,9 milliards de dollars à fin janvier 2023). Cela dépendra de son quatrième trimestre (novembre 2024-janvier 2025) qui est attendu à « 37,5 milliards de dollars, plus ou moins 2 % », contre 35 milliards de dollars au troisième trimestre (août-octobre 2024).

Quasi-monopole de puces GPU et IA
« L’ère de l’IA est à plein régime, ce qui entraîne une évolution mondiale vers les technologies informatiques de Nvidia. La demande pour [la puce] Hopper et l’anticipation pour [sa successeure] Blackwell – en pleine production – sont incroyables », s’est félicité le 20 novembre Jensen Huang. (suite)

Sa directrice financière, Colette Kress (photo ci-contre), a tenté de rassurer sur le retard – dû à un problème d’architecture – pris dans la production de Blackwell, la prochaine génération de processeurs IA très attendue, par les acteurs des IA génératives notamment : « Nous avons effectué avec succès un changement de masque pour Blackwell, qui a amélioré les rendements de production, a-t-elle assurée le 20 novembre. Les expéditions de production de Blackwell devraient commencer au quatrième trimestre de l’exercice 2025 [c’est-à-dire d’ici janvier 2025, ndlr] et […] la demande pour Blackwell devrait dépasser l’offre pendant plusieurs trimestres au cours de l’exercice [2025/2026, ndlr] ». En attendant que tout rentre dans l’ordre, Colette Kress peut se satisfaire de la rentabilité annuelle de Nvidia qui est aussi exponentielle : le bénéfice net sera dévoilé le 26 février lors de la présentation des résultats annuels 2024/2025 (clos au 26 janvier donc), avec un bénéfice net qui devrait surpasser les 29,7 milliards de dollars de l’an dernier, eux-mêmes ayant alors fait un bond de + 581 % sur un an. Bien que son quartier général et son campus soient implantés depuis avril 1993 à Santa Clara, dans l’Etat de Californie, la Big Tech est enregistrée depuis avril 1998 dans l’Etat du Delaware, un paradis fiscal aux Etats-Unis.
Au 27 octobre 2024 (fin du troisième trimestre de l’exercice annuel en cours), la dette de Nvidia, dont les remboursements d’étalent sur plus de dix ans, est de 8,4 milliards de dollars, tandis que sa trésorerie disponible (free cash flow) a atteint 16,7 milliards de dollars, soit plus du double d’il y a un an. La firme de Santa Clara a ainsi les coudées franches pour poursuivre ses acquisitions, afin de renforcer encore sa position ultradominante sur le marché mondial des microprocesseurs graphiques pour le Gaming et l’IA – tout en développant aussi des modèles d’IA (LLM), dont Fugatto présenté le 25 novembre pour générer musiques, voix et sons (6). Rien que sur le marché mondial des cartes graphiques dotées de puces GPU, où Nvidia règne en maître depuis longtemps, sa part de marché atteint 88 % au printemps 2024 face à son rival AMD (12 %), d’après le cabinet d’études californien Jon Peddie Research (7). En dix ans, Nvidia a procédé à une dizaine d’acquisitions : Mellanox, Cumulus Networks et SwiftStack en 2020, DeepMap en 2021, Bright Computing en 2022, Deci AI, Shoreline et RunAI rien qu’en 2024 (8). C’est cette boulimie pour des start-up de l’IA et du cloud qui commence à inquiéter les autorités antitrust, en premier lieu le Département de la Justice (DoJ) aux Etats-Unis.
L’acquisition en avril dernier pour 700 millions de dollars de la société RunAI, créée en 2018 à Tel Aviv (Israël) et spécialisée dans l’optimisation de l’IA et de l’apprentissage automatique (machine learning), intéresse tout particulièrement le DoJ qui a envoyé à l’acquéreur Nvidia une « assignation à comparaître », d’après l’agence Bloomberg début septembre (9), sur des soupçons de violation des lois antitrust américaines et d’abus de position dominante. Un porteparole de Nvidia, John Rizzo, a démenti auprès de Forbes que l’entreprise était assignée à comparaître mais a assuré qu’elle était « heureuse de répondre aux questions des organismes réglementaires sur [ses] activités » (10).
D’après Bloomberg et le New York Times (11), le DoJ – en partenariat avec l’autorité de la concurrence FTC (12) – se demande si Nvidia rend plus difficile pour les acheteurs de passer à d’autres fournisseurs de puces (chips), tout en pénalisant ceux qui n’achètent pas exclusivement ses chips IA. Ce type d’entente est anti-concurrentiel. L’enquête concernerait non seulement Nvidia mais aussi Microsoft qui a investi 13 milliards de dollars dans OpenAI, et Amazon et Google qui ont investi respectivement 4 milliards de dollars et 2 milliards de dollars dans Anthropic.

L’Europe enquête aussi sur Nvidia
Nvidia avait dû renoncer en 2022 à acquérir pour 40 milliards de dollars le fabricant de semi-conducteurs britannique ARM (13), en raison d’une levée de bouclier d’autorités antitrust européennes. En France, l’Autorité de la concurrence (ADLC) a le fabricant de puces GPU dans le collimateur après une première perquisition avec « saisie inopinée » réalisée le 26 septembre 2023 dans les locaux de la filiale française de Nvidia (14). D’après l’agence Reuters le 15 juillet dernier, l’ADLC continue de mener son enquête avant l’envoi d’éventuels « griefs » sur des pratiques anticoncurrentielles, y compris dans les puces IA. Quant à la Commission européenne, elle a annoncé le 31 octobre (15) avoir ouvert une enquête sur le rachat de RunAI par Nvidia. @

Charles de Laubier

Intelligence artificielle générale (AGI) : la superintelligence pourrait arriver dès 2025

C’est la course à l’échalotte du XXIe siècle : après l’IA générative popularisée par ChatGPT lancé par OpenAI il y a deux ans (un siècle !), qui sera l’initiateur de la future superintelligence artificielle censée se mesurer à l’humain ? Cette IAG – ou AGI en anglais – arriverait dès 2025.

Elle est pour demain, ou dans dix ans. Chacun y va de ses prédictions sur l’arrivée prochaine de la « superintelligence artificielle » qui sera comparable à l’intelligence humaine. Deux ans après le lancement de l’IA générative ChatGPT par la société californienne OpenAI, mis en ligne le 30 novembre 2022 précisément (1), voici que son PDG Sam Altman (photo de gauche), prédit l’avènement de l’intelligence artificielle générale (IAG) – Artificial General Intelligence (AGI), en anglais – dès 2025. C’est du moins ce qu’il a laissé entendre le 8 novembre dans un entretien vidéo à Y Combinator (2).

Sam Altman parle d’une AGI dès 2025
A la fin de l’interview et à la question de Gary Tan, PDG de l’incubateur de start-up Y Combinator, de savoir « ce qui va arriver » l’an prochain, Sam Altman répond à brûle-pourpoint (spontanément, comme sans réfléchir) : « AGI ! … euh… excité pour ça… euh… Qu’est-ce que je suis excité… Hum…[Comme un enfant] je suis plus excité pour cela que jamais ». A force d’être enthousiaste, Sam Altman est-il devenu présomptueux ? Une IA capable de rivaliser avec ou de dépasser l’intelligence humaine verrait le jour en 2025, d’après le PDG cofondateur d’OpenAI.
C’est la première fois qu’il évoque une superintelligence à une échéance si rapprochée, alors que le 23 septembre dernier, il était moins dans l’excitation et la précipitation : « Dans les prochaines décennies, nous serons en mesure de faire des choses qui auraient semblé magiques à nos grands-parents. […] Il est possible que nous ayons une superintelligence dans quelques milliers de jours (!) ; cela peut prendre plus de temps, mais je suis sûr que nous y arriverons. […] Il y a encore beaucoup de détails à résoudre […] », affirmait Sam Altman dans un post intitulé « The Intelligence Age » (3). A raison de 365 jours par an, cela renvoie le lancement d’une superintelligence de type AGI à la fin de la décennie actuelle, pas avant. Et d’ajouter plus loin : « Plus tard, les systèmes d’IA deviendront si performants qu’ils nous aideront à améliorer la prochaine génération de systèmes et à faire des progrès scientifiques dans tous les domaines ». Dans la continuité de l’apprentissage profond (deep learning, en anglais), qui ne cessera pas de s’améliorer grâce à des ressources et des données croissantes, la prochaine étape serait donc le niveau de l’intelligence humaine, voire le dépassement. « Avec une précision étonnante, plus il y a de données et de calculs disponibles, mieux il est possible d’aider les gens à résoudre des problèmes difficiles », résume Sam Altman. Cinq jours après cet entretien, soit le 13 novembre d’après l’agence Bloomberg (4), la direction d’OpenAI réunissait ses équipes en interne pour leur annoncer que la nouvelle intelligence artificielle connue sous le nom de code « Operator » sera lancée en janvier 2025. A usage général, cet « AI agent » (agent IA en français) aura vocation à prendre la main sur l’ordinateur de l’utilisateur pour « exécuter des tâches » à sa place, « comme écrire du code ou réserver un voyage ». Ce nouvel outil sera utilisable à partir d’un navigateur web. Au-delà des IA génératives (ChatGPT, Claude, Gemini, …), la nouvelle course vers les AGI passera par ces agents IA pour ordinateur. (suite)

Anthropic a lancé le sien le 22 octobre, en version bêta en utilisant l’IA générative avancée Claude 3.5 Sonnet. « Au cours des dernières années, de nombreuses étapes importantes ont été franchies dans le développement d’une puissante IA – par exemple, la capacité d’effectuer un raisonnement logique complexe et la capacité de voir et de comprendre des images. La prochaine frontière est l’utilisation de l’ordinateur, indique Anthropic. Le fonctionnement des ordinateurs implique la capacité de voir et d’interpréter les images, en l’occurrence les images d’un écran d’ordinateur. Il faut aussi réfléchir à la façon et au moment d’effectuer des opérations précises en fonction de ce qui est affiché à l’écran » (5). Microsoft, investisseur historique dans OpenAI, a lancé le 16 septembre ses agents IA « Copilot 2e vague » (6) pour automatiser des processus dans la suite des logiciels « 365 » tels que Word, Excel, PowerPoint ou encore Teams. Google prépare aussi son agent IA, d’après The Information. Et après ?

Demis Hassabis : pas d’AGI avant 2033
Après les agents IA, les IAG (AGI) à partir de 2025 ou pas avant 2030 voire au-delà ? Experts et gourous ne sont pas tous d’accord sur l’avènement de ces superintelligences susceptibles de rivaliser avec les humains. Demis Hassabis (photo de droite), PDG cofondateur de la société britannique DeepMind rachetée en janvier 2014 par Google, ne voit pas venir d’intelligence artificielle générale avant une décennie – autrement dit pas avant 2033. C’est en tout cas ce qu’avait dit ce chercheur et entrepreneur britannique en IA l’an dernier lors de la conférence « The Future of Everything Festival » organisée par le Wall Street Journal : « L’intelligence artificielle, un système dans lequel les ordinateurs possèdent des capacités cognitives de niveau humain, pourrait être réalisable en quelques années. […] Les progrès n’ont aucune raison de ralentir ; ils vont s’accélérer et l’on parviendra à une AGI dans seulement dix ans », a expliqué Demis Hassabis (7). Pour que les intelligences artificielles générales puissent être au niveau de l’intelligence humaine, cela suppose de grandes capacités informatiques et quantité de données pour leur apprentissage (machine learning), tant en raisonnement et en tâches cognitives qu’en prises de décision.

Superintelligence, superordinateur ?
Les Big Tech, les Gafam et les hyperscalers américains du cloud tels qu’Amazon Web Services (AWS), Microsoft Azure ou Google Cloud vont-ils préempter le futur marché mondial des superintelligences ? Les besoins en puissances de calculs sont si gigantesques que les solutions alternatives pourraient passer par des superordinateurs en réseaux. C’est par exemple ce que propose la société suisse SingularityNet, fondée par Ben Goertzel (photo ci-contre) avec comme « mission de créer une AGI décentralisée, démocratique, inclusive et bénéfique [qui] n’est pas dépendante d’une entité centrale ». Cette future AGI sera « ouverte à tous » dans le monde, en s’appuyant sur la blockchain. Ce chercheur-entrepreneur américain en IA (8), d’origine brésilienne (il est né en 1966 à Rio de Janeiro), est aussi le fondateur d’OpenCog, un projet open source d’architecture cognitive intégrative qui vise à créer une superintelligence capable de penser et d’apprendre de manière autonome, comme un être humain (9).
Dans le but de démocratiser l’IA, Ben Goertzel a lancé le 13 novembre un fonds de plus de 1 million de dollars pour subventionner – via Deep-Funding (10) – des développeurs capables de « faire progresser l’AGI bienveillante au bénéfice de l’humanité ». Projets de R&D, étudiants, chercheurs ou encore ingénieurs peuvent participer à ce challenge en utilisant le framework logiciel open source OpenCog Hyperon disponible pour « réaliser le rêve de l’AGI » (11).
Les candidats ont jusqu’au 1er décembre pour soumettre leurs propositions (cette date limite pourra être prolongée). « Une fois la subvention accordée, les bénéficiaires auront entre trois et neuf mois pour mener à bien leurs activités de recherche et développement, selon l’ampleur et la complexité du projet », précise dans son appel (12) Ben Goertzel, qui dirige en outre l’Artificial Superintelligence Alliance (ASI Alliance). Cette association a été créée par Fetch.ai, SingularityNet et Ocean Protocol pour développer une AGI open source. Ben Goertzel est un optimiste de l’IA et ne craint pas les avantages des futures superintelligences. Alors que Sam Altman, le patron d’OpenAI, est passé par des crises d’angoisses avant de tenir depuis peu un discours plus positif : « Ce ne sera pas une histoire entièrement positive, mais les avantages sont si énormes que nous devons à nous-mêmes et à l’avenir de trouver comment naviguer dans les risques qui se présentent à nous, a-til écrit le 23 septembre dans son billet “The Intelligence Age” déjà mentionné. Par exemple, nous prévoyons que cette technologie peut entraîner un changement important sur les marchés du travail (bon et mauvais) dans les années à venir, mais la plupart des emplois changeront plus lentement que ne le pensent la plupart des gens, et je n’ai pas peur que nous manquions de choses à faire. […] Et si nous pouvions faire un saut de cent ans dans le futur, la prospérité autour de nous serait tout aussi inimaginable ».
Le PDG d’OpenAI ne fait donc plus dans le catastrophisme, comme lorsque le 17 mai 2023 devant le Sénat américain il avait fait part de sa peur de voir une superintelligence provoquer de « graves dommages au monde ». Il avait alors été cosignataire, avec Bill Gates, Dario Amodei (Anthropic) et d’autres, d’une courte déclaration mise en ligne le 30 mai 2023 : « La réduction du risque d’extinction [de l’humanité, ndlr] dû à l’IA devrait être une priorité mondiale, aux côtés d’autres risques sociétaux tels que les pandémies et la guerre nucléaire » (13). Les craintes se le disputant à la psychose, Elon Musk – pourtant réputé libertarien téméraire – fut parmi les milliers de cosignataires de la « Pause Giant AI Experiments » (14) publiée le 22 mars 2023. Ils appelaient « tous les laboratoires d’IA à suspendre immédiatement pendant au moins six mois la formation des systèmes d’IA plus puissants que GPT-4 ». En vain : OpenAI a lancé GPT-4o en mai dernier (15), où « o » veut dire « omni » car capable de traiter des entrées multimodales (texte, image, audio, l’image et vidéo) et GPT-5 alias Orion verra le jour en décembre 2024 ou début 2025.

L’AGI dira-t-elle « Je pense, donc je suis » ?
Actuellement testé sous le nom de projet « Orion », GPT5 devrait avoir une multimodalité plus puissante en s’appuyant sur une taille de modèle d’IA (grand modèle de langage ou LLM) encore plus grande. Successivement désigné sous les noms de code « Q* » puis « Strawberry », ce nouveau modèle d’OpenAI s’appelle depuis septembre « OpenAI o1 » et est capable de raisonner en temps réel et de résoudre des problèmes complexes comme un humain (16). Il est la pierre angulaire d’Orion/GPT-5 et probablement de la prochain AGI susceptible de « penser » comme un humain. @

Charles de Laubier

Claude, le concurrent de ChatGPT, a franchipour la première fois 1 million de dollars de revenu

Claude d’Anthropic sera-t-elle l’IA générative qui pourra détrôner ChatGPT d’OpenAI ? L’avenir dira si la fable du lièvre et de la tortue s’appliquera à ces deux concurrents directs. Pour l’heure, la tortue Claude fait son chemin aux côtés d’Amazon qui va l’utiliser pour son assistant Alexa.

Claude d’Anthropic sera-t-elle l’IA générative qui pourra détrôner ChatGPT d’OpenAI ? L’avenir dira si la fable du lièvre et de la tortue s’appliquera à ces deux concurrents Alors que ChatGPT d’OpenAI a été lancé le 30 novembre 2022 avec le succès médiatique planétaire que l’on connaît (1), son concurrent Claude d’Anthropic n’a pas dit son dernier mot depuis son lancement le 14 mars 2023 dans une relative indifférence générale (2). Mais c’était sans compter sur Amazon qui a annoncé le 25 septembre 2023 injecter 4 milliards de dollars dans la start-up cofondée par Dario Amodei (photo de gauche)et sa sœur Daniela Amodei (photo de droite), respectivement directeur général et présidente (3). Dans la course mondiale aux IA génératives, Claude fait figure de tortue par rapport au lièvre ChatGPT. Ce qui laisse un espoir pour Anthropic, la start-up qui développe le premier, de rattraper son retard par rapport à OpenAI, à l’origine du second.. Pour l’heure, la tortue Claude fait son chemin aux côtés d’Amazon qui va l’utiliser pour son assistant Alexa.

Anthropic veut rattraper OpenAI
Mais l’issue de la fable ne s’appliquera pas forcément à la réalité. En attendant, Claude vient de franchir une étape symbolique dans son expansion en dépassant 1 million de dollars de chiffre d’affaires cumulé depuis son lancement il y a près d’un an et demi. C’est ce qu’a relevé fin août Ariel Michaeli, PDG cofondateur de la société d’analyses Appfigures, à partir des boutiques d’applications mobiles App Store et Google Play. Mais atteindre 1 million de dollars en seize semaines n’est pas un record pour autant, loin de là, puisque ChatGPT avait atteint ce mondant en trois semaines et ChatOn en onze semaines. ChatOn ? Il s’agit d’un wrapper de ChatGPT, c’est-à-dire une sorte de clone qui tente d’apporter des améliorations conviviales et de nouvelles facilités. Développé par la société AIby basée à Miami, ChatOn rencontre un certain succès aux Etats-Unis. Mais Claude a la satisfaction d’avoir atteint le million plus rapidement que Copilot de Microsoft, lequel, pourtant, a investi plus de 13 milliards de dollars dans son partenaire OpenAI (4) et a une base de plusieurs millions d’utilisateurs de son navigateur Edge intégrant Copilot. Claude a aussi franchi le million bien avant les vingt-deux semaines qu’il a fallu à Perplexity pour l’atteindre (voir graphique ci-dessous). La start-up californienne Perplexity AI, cofondée en août 2022, a lancé un moteur conversationnel intelligent (chat-search) présenté comme « une alternative aux moteurs de recherche traditionnels » (5).

Anthropic a donc plus que jamais une carte à jouer dans la bataille des IA génératives, comme le croit Ariel Michaeli : « Nous estimons que Claude a jusqu’à présent 25.000 abonnés payants. Cela semble beaucoup, mais ChatGPT a ajouté 291.000 nouveaux abonnés payants en juillet [l’IA générative d’OpenAI revendiquant en août plus de 200 millions d’utilisateurs actifs, ndlr]. Pour que Claude ait une chance, il doit apprendre des wrappers et ne pas copier ChatGPT. Si Claude augmente son interface de chat avec des fonctionnalités plus grand public, et s’il promeut son application mobile, alors il pourrait avoir une chance » (6). La monétisation actuelle de Claude sur mobile provient à 48,4 % des Etats-Unis, 6,7 % du Japon, 4,3 % de l’Allemagne, à égalité avec le Royaume-Uni, ou encore de 2,8 % de la Corée du Sud.

Alors qu’Apple va lancer d’ici la fin de l’année de nouveaux iPhone dotés d’un Siri, l’assistant virtuel de la Pomme, intégrant ChatGPT à la faveur d’un accord annoncé en juin avec OpenAI (7), Anthropic pourrait profiter de son investisseur Amazon (4 milliards de dollars annoncés en septembre 2023) qui prévoit d’utiliser Claude dans son assistant vocal Alexa (100 millions d’utilisateurs actifs, selon Bank of America). C’est du moins ce qu’a révélé le 30 août dernier l’agence Reuters, en évoquant le lancement prévu en octobre de la version « Remarkable » d’Alexa, facturable de 5 à 10 dollars par mois (8). Une preview serait montrée durant le prochain « Devices & Services Event » d’Amazon qui se tient habituellement en septembre. Un duo Claude-Alexa serait un coup de maître pour Anthropic. Rappelons que Google d’Alphabet a également investi dans Anthropic, à hauteur d’au moins 2 milliards de dollars. @

Charles de Laubier

Tournant judiciaire aux Etats-Unis en faveur du droit d’auteur d’artistes contre des IA génératives

Dans la torpeur de l’été, le juge d’un tribunal de Californie a donné raison à des artistes qui ont porté plainte contre des IA génératives – Stable Diffusion de Stability AI en tête – qui utilisent leurs images sans autorisation et au mépris du copyright. Ce jugement constitue une étape majeure.

C’est une première victoire des artistes aux Etats-Unis contre les IA génératives qui utilisent des milliards d’images pour répondre aux requêtes de millions d’internautes dans le monde. Le juge fédéral américain William Orrick (photo), officiant au tribunal du district nord de la Californie, a décidé le 12 août 2024 que les plaintes des artistes – contre les sociétés Stability AI (avec son IA générative Stable Diffusion), Midjourney (avec son IA générative du même nom), Runway AI (IA génératives multimédias à l’aide de DreamUp) et DeviantArt (réseau social de créatifs) – étaient recevables.

Stability, Midjourney, Runway, DeviantArt
Dans son ordonnance de 33 pages (1), le juge Orrick reconnaît qu’il y a violation du droit d’auteur et de marques déposées dès lors que les IA génératives ont été construites – lors de leur entraînement – sur des milliards d’images protégées et sans l’autorisation de leurs auteurs et artistes. La plainte examinée a été déposée l’an dernier et se focalise sur la grande base de données LAION – Large-scale Artificial Intelligence Open Network (2) – qui a été constituée à partir de 5 milliards d’images, lesquels auraient été récupérées sur Internet et exploitées par Stability AI, Midjourney, Runway AI et DeviantArt.
Les artistes à l’origine de la plainte affirment que « l’ensemble des données “LAION-5B” contient seulement des URL d’images d’entraînement, et non pas les images réelles d’entraînement ». Par conséquent, affirment-ils, « quiconque souhaite utiliser LAION-5B pour former son propre modèle d’apprentissage automatique doit d’abord acquérir des copies des images de formation réelles à partir de ses URL en utilisant l’ensemble de données ‘’img2dataset’’ ou un autre outil similaire ».

Ils estiment qu’il y a « infraction directe », en faisant référence à la diffusion guidée par CLIP (Contrastive Language- Image Pre-training) dans la phase d’entraînement mais aussi dans l’utilisation, après la formation. Il s’agit en fait d’un modèle d’IA développé par OpenAI, la société à l’origine de ChatGPT, qui associe des images et des textes pour permettre une compréhension et une génération plus avancées de contenu visuel et textuel. Le juge est allé dans le sens des artistes en concluant que l’IA générative Stable Diffusion de Satability AI a été construite à partir d’images protégées par le droit d’auteur et que « la façon dont le produit fonctionne fait nécessairement appel à des copies ou à des éléments protégés de ces œuvres ». Dans leur class action formée en 2023, les artistes accusent la société Stability AI de violation directe du droit d’auteur d’œuvres enregistrées provenant de la base de donnée « LAION-5B » en formant ses modèles – ou LLM (Large Language Model) – d’intelligence artificielle générative que sont notamment Stable Diffusion 2.0 et Stable Diffusion X. Ils l’accusent aussi d’« inciter à la violation du droit d’auteur en distribuant gratuitement Stable Diffusion 2.0 et Stable Diffusion XL », tout en violant aussi le Digital Millennium Copyright Act (DMCA), à savoir la loi américaine sur le droit d’auteur à l’ère du numérique, « en supprimant et en modifiant les renseignements sur la gestion des droits d’auteur » (3) des images pour l’entraînement de ses IA génératives. Et ce, en s’enrichissant de façon injustifiée.
La société Runway AI est elle aussi accusée de violation directe du droit d’auteur des œuvres enregistrées de la « LAION-5B » en formant ses propres modèles, y compris Stable Diffusion. Parmi les artistes dont les œuvres ont été utilisées illégalement, il y a par exemple Karla Ortiz qui a travaillé sur « Black Panther » ou encore « Avengers: Infinity War ». La société Midjourney est elle aussi dans le collimateur de la justice américaine pour, là aussi, violation directe du droit d’auteur des œuvres enregistrées de la base d’entraînement « LAION-400M » pour cette fois, pour former ses modèles, y compris la version 1 de Midjourney, ainsi que de la « LAION-400M5B » pour la version 5.2 de Midjourney. Quant à la communauté artistique DeviantArt, elle est poursuivie aussi pour violation directe du droit d’auteur en copiant le modèle DreamUp-CompVis et en l’incorporant dans DreamUp.

Depuis 2023, les artistes ont précisé les faits
« En octobre 2023, j’avais largement fait droit aux requêtes en rejet présentées par les défendeurs Stability, Midjourney et DeviantArt. La seule réclamation qui a survécu est la réclamation d’infraction directe contre Stability AI, fondée sur la création et l’utilisation présumées d’“images d’entraînement” saisies dans les ensembles de données du LAION et utilisées pour former Stable Diffusion », a rappelé William Orrick, en laissant aux artistes de la class action la possibilité de modifier leur plainte « pour clarifier leurs théories sur la façon dont chaque [entreprises accusées] a violé leurs droits d’auteur, supprimé ou modifié les renseignements sur la gestion de leur droit d’auteur, ou a violé leurs droits à la publicité et des faits plausibles à l’appui ». Les artistes ont donc depuis clarifié leur demande concernant les copies compressées des images d’entraînement et pour étayer les faits sur la façon dont Stable Diffusion – « un programme open source, du moins en partie » – fonctionne par rapport aux images d’entraînement. Ils ont pour cela ajouté la plainte contre Runway AI et sept nouveaux artistes en plus des premiers à l’origine de la plainte.

Cependant, pas de violation du DMCA
« Les demandeurs ont raison de dire que l’autorisation de modifier [leur plainte] est “librement accordée”, surtout au début d’une affaire », « […] Je vais accorder la permission et répondre aux arguments des défenseurs contre les demandes et les plaignants [qui ont été] ajoutés », a estimé le juge, élargissant de ce fait l’affaire. Concernant Stable Diffusion, les artistes ont fait état d’une déclaration du PDG de Stability AI, Emad Mostaque (son fondateur), selon laquelle la société avait pris 100.000 Gigaoctets d’images et les a compressées dans un fichier de 2 Gigaoctets qui peut « recréer » n’importe quelle de ces images. La start-up créée il y a cinq ans a répondu que « l’usage “isolé” du mot “créer” par son PDG ne peut démontrer qu’il a eu pour but de favoriser l’infraction » et que « les plaignants ne contestent pas que Stable Diffusion est capable d’utilisations non violentes substantielles, comme la création d’œuvres à partir de données qui ne font pas référence à des artistes particuliers ou n’invoquent pas les styles d’artistes particuliers ou qui présentent une similitude substantielle avec les œuvres des [artistes] demandeurs ». Quoi qu’il en soit, le juge a estimé que « les allégations de violation induite sont suffisantes », renvoyant « à une date ultérieure » la question de savoir si c’est le résultat d’un problème technique (comme le prétend Stability AI) ou par dessein (argument des artistes). Concernant les éventuelles violations du DMCA, la loi américaine sur le droit d’auteur numérique, le juge William Orrick avait déjà rejeté en octobre 2023 ces accusations dans la mesure ou les plaignants n’avaient pas identifié le type exact de CMI (Copyright Management Information) inclus dans leurs œuvres numériques qui aient été en ligne et qu’ils croyaient de bonne foi avoir été « scraped » (comprenez « moissionnées » ou aspirées en ligne) dans la base de données LAION (4) ou autres « datasets » utilisés pour entraîner Stable Diffusion. « Il n’y a rien dans la plainte au sujet du texte CMI présent dans les images que les plaignants nommément nommés ont incluses avec leurs images en ligne et qu’ils affirment avoir été dépouillées ou modifiées en violation du DMCA pendant la formation de Stable Diffusion ou l’utilisation des produits finaux », avait constaté le juge. Les demandes d’indemnisation au titre de la violation supposée du DMCA ont donc été rejetées en août 2024 comme elles le furent en octobre 2023, tout comme sont écartées les accusations d’enrichissement sans cause.
Quant à la société Runway AI, l’accusée supplémentaire dans cette affaire, elle se voit reprochée d’avoir formé ou aidé à former au moins Stable Diffusion 1.5, en utilisant des images d’entraînement provenant de l’ensemble de données de LAION. « Comme pour Stability AI, puisque Runway AI ne conteste pas l’utilisation des images à des fins d’entraînement, je n’ai pas besoin de parler des autres théories de violation directe, a tenu à préciser le juge de Californie. Toutefois, je note que la théorie du modèle et la théorie de la distribution de l’atteinte directe dépendent de la question de savoir si les œuvres protégées des demandeurs sont contenues, d’une certaine façon, dans Stable Diffusion telle qu’elle est distribuée et exploitée. Le fait que ces œuvres puissent être contenues dans Stable Diffusion sous forme de représentations algorithmiques ou mathématiques – et soient donc fixées sur un support différent de celui dans lequel elles ont été produites initialement – n’est pas un obstacle à la revendication à ce stade ». En fin de discussion, le juge a tranché : « La requête de Runway visant à rejeter les demandes d’infraction directe est refusée. […]. La requête en rejet de Runway est refusée sur les demandes d’infraction, [mais] accordée à l’encontre des demandes du DMCA et accordée avec autorisation de modifier la demande d’enrichissement sans cause ».

Midjourney et les recours en vertu du DMCA
Midjourney soutient pour sa part – à l’égard de trois des artistes que sont Sarah Andersen, Julia Kaye et Gerald Brom – que la preuve de leur enregistrement d’oeuvres nouvellement identifiées et protégées par le droit d’auteur est insuffisante. Et ce, étant donné qu’un sous-ensemble des oeuvres d’artistes identifiées – comme étant à la fois protégées par le droit d’auteur et inclues dans les ensembles de données du LAION utilisés pour entraîner les produits d’IA – sont des compilations. Or, souligne le juge, « il est […] incontestable que chacun des [artistes], qui réclament que leurs œuvres protégées par le droit d’auteur ont été incluses dans les ensembles de données LAION, a au moins une œuvre dont l’enregistrement est valide ». Et d’ajouter plus loin : « L’identification de ces œuvres ne prouve peut-être pas la responsabilité en vertu DMCA, mais elle appuie la plausibilité des théories du demandeur au sujet DMCA ». Aussi : « A ce stade, les recours en vertu DMCA survivent contre Midjourney et les autres défendeurs ». @

Charles de Laubier