L’ambition de Perplexity de vouloir détrôner le moteur de recherche Google laisse… perplexe

La start-up Perplexity AI, cofondée en août 2022 et dirigée par Aravind Srinivas, a lancé un moteur conversationnel intelligent présenté comme « une alternative aux moteurs de recherche traditionnels » – autrement dit à Google qui domine largement le marché mondial.

Selon nos informations auprès de Statcounter, Google domine toujours de manière écrasante le marché mondial des moteurs de recherche avec – sur le mois de mars 2024 – 91,38 % de part de marché (1) avec près de 80 milliards de visites ce mois-là selon Similarweb, suivi de très très loin par Bing (Microsoft) qui peine à faire mieux que 3,35 % avec près de 1,3 milliard de visite sur le mois, ou encore par Yahoo avec seulement 1,1 % mais sans que l’on sache précisément le nombre de visite correspondant à son moteur par rapport à son portail média. Autant dire que la filiale d’Alphabet est en situation de quasi-monopole.

« Chat-search », à la fois moteur et robot
C’est à cette position dominante dans le search que de nouveaux entrants rêvent de s’attaquer en tentant de profiter de l’effet de levier technologique de l’intelligence artificielle en général et de l’IA générative en particulier. L’Indo-américain Aravind Srinivas (photo de gauche) et le Biélorusse Denis Yarats (photo de droite) travaillant aux Etats-Unis, tous les deux cofondateurs en août 2022 de la start-up californienne Perplexity AI, ont entrepris de faire entrer la recherche en ligne dans la nouvelle ère de ce qu’ils appellent l’« AI-native search ». Leur moteur conversationnel, qui a dépassé en mars 2024 les 56 millions de visites, est présenté comme un « couteau suisse » de la recherche en ligne.

« Perplexity dispose d’une interface conversationnelle, d’une conscience contextuelle et d’une personnalisation pour connaître au fil du temps vos intérêts et préférences. Sa mission est de faire en sorte que la recherche d’informations en ligne vous donne l’impression d’avoir un assistant compétent qui vous guide », expliquent-ils. A la différence d’un moteur de recherche classique, il n’est pas nécessaire de cliquer sur différents liens, de comparer les réponses ou de chercher sans cesse des informations. Ce que l’on pourrait appeler « chat-search » formule une réponse la plus précise et concise possible grâce à l’IA générative, en mentionnant aussi des sources complètes et des citations incluses trouvées en temps réel sur le Web. Fini de perdre du temps avec les « spams SEO », ou spamdexing (2), et les nombreux liens sponsorisés qui parasitent les résultats de recherche. Contrairement à Google qui est entièrement gratuit et financé par de la publicité, Perplexity est un service freemium. Sa version libre d’accès s’appuie sur le modèle GPT-3.5 d’OpenAI (à l’origine de ChatGPT) ainsi que sur à la fois un grand modèle de langage (LLM, Large Language Model) et un traitement du langage naturel (NLP, Natural Language Processing) propres à Perplexity AI. Quant à la version payante, Perplexity Pro (20 dollars par mois), elle permet aux abonnés de choisir parmi les derniers modèles d’IA comme GPT-4 Turbo d’OpenAI, Claude 3 d’Anthropic ou le modèle maison baptisé Experimental (basé sur des LLM open source), afin d’obtenir des réponses différentes, plus longues et améliorées – dans la limite des 300 requêtes par jour. Et, comme l’a annoncé le 28 mars Aravind Srinivas (3), le modèle Mistral Large développé par la licorne française Mistral AI est aussi sur Perplexity Pro. En outre, l’abonné peut soumettre à Perplexity des fichiers texte ou PDF téléversés pour obtenir un résumer, une explication ou bien une traduction. « GPT-4 Turbo est préféré pour un niveau incroyable de précision, Claude 3 pour les réponses de sondage naturel et les téléchargements de fichiers, tandis qu’Experimental est bien ajusté pour être concis et précis », indique Perplexity (4).
Ce nouvel entrant sur le marché prometteur des moteurs carburant à l’IA aura-t-il les moyens de ses ambitions de détrôner les classiques « Google » ? Il a procédé à une seconde levée de fonds de 73,6 millions de dollars annoncée en début d’année auprès notamment du milliardaire fondateur d’Amazon Jeff Bezos (viaBezos Expeditions Fund), du fabricant Nvidia, de Tobias Lütke (PDG cofondateur de Shopify), ou encore de l’Indo-américain Naval Ravikant (cofondateur d’AngelList). Ce qui porte à 100 millions de dollars le total des sommes investies dans Perplexity AI. Mais Perplexity AI n’est pas seul à vouloir détrôner les Google, Bing et autres DuckDuckGo.

La start-up SuSea avec You.com aussi
Une autre société californienne, SuSea, fondée en 2020 par Richard Socher qui est l’ancien Chief Scientist de Salesforce (dont il fut vice-président), a lancé le chat-search You.com. Il s’appuie aussi pour sa version gratuite sur GPT 3.5, tandis que YouPro – 15 dollars par mois (5) – propose GPT-4 d’OpenAI, Claude 3 d’Anthropic, Gemini Pro de Google ou encore Zephyr de Hugging Face (Zephyr-7B étant un LLM dérivé de Mistral-7B du français Mistral AI). Face à cette nouvelle concurrence « GenAI », Google (Alphabet) et Bing (Microsoft) ont injecté de l’IA dans leur moteur respectif. La bataille des chat-search ne fait que commencer. @

Charles de Laubier

La « bulle IA » déjà multimilliardaire va-t-elle éclater comme son ancêtre la « bulle Internet » ?

Mars 2000 et mars 2024. Près d’un quart de siècle sépare ses deux dates. La première marque l’éclatement de la « bulle Internet » ; la seconde est celle de l’état de la « bulle IA » aujourd’hui. Les perspectives de chiffre d’affaires de l’intelligence artificielle suscitent frénésie. Mais à risque.

Euphorie, exubérance, spéculation, effervescence, irrationalité ou encore inconscience : toutes les conditions financières et comportementales sont aujourd’hui réunies pour que l’agitation planétaire autour des intelligences artificielles génératives fasse gonfler encore plus la « bulle IA » actuelle. Les géants du numérique et les start-up/licornes technologiques qui la composent au niveau mondial cumulent à elles seules dans ce domaine une valorisation totale – capitalistique et/ou boursière – qui se chiffre en trilliards d’euros, soit des milliers de milliards d’euros.

Pas « si » la bulle IA va éclater, mais « quand »
Et la licorne OpenAI – valorisée 80 milliards de dollars selon le New York Times daté du 16 février 2024 (1) – n’est que la partie émergée de l’iceberg du marché planétaire de l’intelligence artificielle. Présidée par son cofondateur Sam Altman (photo), elle s’est propulsée à la première place mondiale des IA génératives en lançant le 30 novembre 2022 – il y a seulement quatorze mois ! – ChatGPT. Et le chiffre d’affaires de la société californienne a bondi, grâce aussi à son autre IA générative à succès Dall·E, pour atteindre sur l’année 2023 la barre des 2 milliards de dollars de chiffre d’affaires, d’après cette fois le Financial Times du 9 février dernier (2). Du jamais vu, aussi bien en termes de valorisation que de revenu, pour une jeune pousse créée en 2015 sous forme de laboratoire de recherche en IA, à but non lucratif, et assortie depuis 2020 d’une entité commerciale.

Le partenariat infonuagique, financier et capitalistique avec Microsoft (3), débuté progressivement à partir de 2019 et estimé actuellement à 13 milliards de dollars, a contribué au succès d’OpenAI. Depuis, la concurrence des IA génératives (GenAI) et de leurs grands modèles de langage (LLM) bat son plein : Anthropic avec Claude, Google avec Gemini/Gemma, Meta avec Llama, Mistral AI avec Large, pour ne citer que les plus financés et les plus avancés, en attendant aussi le discret Ferret d’Apple (4). Par exemple, Anthropic – l’un des rivaux les plus sérieux d’OpenAI – a vu sa valorisation dépasser les 15 milliards de dollars, après avoir levé à l’automne dernier 6 milliards de dollars auprès d’Amazon (deux-tiers) et Google (un tiers), somme qui s’est ajoutée au 1,5 milliard de dollars obtenus auparavant (5). Quant à la licorne française Mistral AI, après avoir pactisé avec Microsoft, encore lui, elle est courtisée par Softbank (6). Au total, les montants investis en capital risque dans l’IA sont colossaux : les milliers de milliards d’euros de valorisation constituent ainsi une « bulle IA » sans précédent, apparue en un temps record – moins d’un an et demi. Et l’afflux d’investissements vers l’IA continue, le patron d’OpenAI ayant même estimé – d’après les propos de Sam Altman au Wall Street Journal daté du 8 février (7) – jusqu’à 7.000 milliards de dollars le besoin d’argent nécessaire dans le monde au développement des IA pour les prochaines années. Le plus coûteux réside dans la puissance de calcul fournie par des puces superpuissantes, ces semiconducteurs étant appelés « unités de traitement graphique » ou GPU (Graphics Processing Unit). L’américain Nvidia est le numéro un mondial dans ce domaine.
Alors qu’il a fallu au moins cinq ans pour la « bulle Internet » avant d’atteindre jusqu’à 3 trilliards de dollars de valorisation. Et encore, avec l’aide à l’époque des importantes valorisations boursières dans les télécoms (opérateurs et équipementiers). La question n’est dès lors plus de savoir s’il y aura l’éclatement de la « bulle IA », mais quand. Car, comme le montre le cycle de la « hype », toute nouvelle technologie suit une courbe qui atteint rapidement un pic (effet « waouh »), avant de redescendre brusquement, puis de reprendre progressivement son souffle pour atteindre un plateau qui progressera lentement au cours des années suivantes (8). A côté, en France, la recommandation du Comité de l’intelligence artificielle générative, de créer un fonds d’investissement qui serait baptisé « France & IA » et qui mobiliserait 10 milliards d’euros de capital-investissement d’entreprise et de soutien public, semble dérisoire.

Des prévisions de revenus dithyrambiques
Installé depuis septembre 2023 auprès du Premier ministre, cette commission de l’IA a remis son rapport (9) le 13 mars au président de la République, alors qu’Emmanuel Macron se prépare à accueillir fin 2024 ou début 2025 à Paris le 2e Sommet sur la sécurité de l’IA (AI Safety Summit). Le rapport estime que l’IA pourrait augmenter en dix ans le PIB de l’Hexagone « de 250 à 420 milliards d’euros, soit autant que la valeur ajoutée de toute l’industrie ». Au niveau mondial, Grand View Research estime le chiffre d’affaires généré par l’IA à près de 200 milliards de dollars en 2023 (196,6 milliards précisément). Et avec une croissance prévisionnelle de 37,3 % en moyenne par an, le marché planétaire de l’IA atteindrait près de 1.819 milliards de dollars d’ici 2030. @

Charles de Laubier

Le Bureau européen de l’IA forme son bataillon

En fait. Le 27 mars à midi est la date limite pour se porter candidat à l’une des offres d’emploi du « Bureau de l’IA » (AI Office) créé au sein de la Commission européenne par l’AI Act dont la version finale sera soumise le 22 avril au vote du Parlement européen. Sont recrutés des techniciens et des administratifs.

En clair. « Postulez dès maintenant en tant que spécialiste technologique ou assistant administratif pour une occasion unique de façonner une IA digne de confiance. […] Le Bureau européen de l’IA jouera un rôle-clé dans la mise en œuvre du règlement sur l’intelligence artificielle – en particulier pour l’IA générale [ou AGI pour Artificial General Intelligence, aux capacités humaines, ndlr] – en favorisant le développement et l’utilisation d’une IA fiable, et la coopération internationale. […] La date limite de manifestation d’intérêt est le 27 mars 2024 à 12h00 CET », indique la Commission européenne (1).
Avant même l’adoption définitivement de l’AI Act (2) par le Parlement européen, prévue en séance plénière le 22 avril (pour entrer en vigueur l’été prochain), la DG Connect, alias DG Cnect (3), embauche déjà pour son Bureau de l’IA nouvellement créé. Les entretiens auront lieu à la fin du printemps et les prises de fonction à partir de l’automne 2024. Sont recherchés : chercheurs scientifiques, informaticiens, ingénieurs logiciels, data scientists ou encore spécialistes matériels, avec « une expérience technique avérée en IA » (marchine learning, deep learning, éthique et vie privée, cybersécurité, …).

Parmi les nouvelles recrues, les experts techniques – sous statut d’agents contractuels – s’intéresseront non seulement aux IA génératives mais surtout aux AGI ou, comme les appelle l’AI Act, les General Purpose AI models (GPAI models). Des outils, méthodologies et benchmarks permettront à ces agents d’évaluer les capacités et la portée des modèles de ces AGI, et d’identifier les modèles de langage (LLM) présentant des risques systémiques. « Une expérience en test et évaluation des modèles et des IA avancées, y compris l’alignement des modèles, les biais, la désinformation et l’équipe rouge [ennemi fictif pour améliorer la sécurité, ndlr], serait un atout important », est-il précisé. Les agents de l’AI Office, organisation unique au monde (4), seront assermentés pour enquêter sur d’éventuelles infractions à l’AI Act.
Par ailleurs, « le futur Bureau de l’IA sera aussi le garant de l’indispensable protection des œuvres et des droits ! », a souligné début mars Manon Montrouge, chargée des affaires européennes à la SACD (5). L’AI Office sera notamment chargé par l’AI Act d’« établir un modèle du résumé des œuvres utilisées par les IA à usage général (ChatGPT, Gemini, Large, …) qui devra être rendu public ». @

Le Monde en France, El País en Espagne, Die Welt en Allemagne : OpenAI séduit la presse au cas par cas

OpenAI a réussi à convaincre de grands titres de presse en Europe – Le Monde, El País et Die Welt – et, aux Etats-Unis, l’agence de presse AP et l’American Journalism Project pour que son IA générative ChatGPT soit plus au fait de l’actualité dans des langues différentes. Le New York Times, lui, a préféré un procès.

Le directeur des opérations d’OpenAI, Brad Lightcap (photo), n’est pas peu fier d’avoir décroché des accords pluriannuels avec les grands quotidiens européens Le Monde en France, El País en Espagne et Die Welt en Allemagne. « En partenariat avec Le Monde et Prisa Media [éditeur d’El País], notre objectif est de permettre aux utilisateurs de ChatGPT du monde entier de se connecter à l’actualité de façon interactive et pertinente », s’est-il félicité le 13 mars dernier lors de l’annonce des deux accords noués pour plusieurs années avec respectivement le groupe français Le Monde pour son quotidien éponyme et le groupe espagnol Prisa Media pour son quotidien El País, de même que pour son quotidien économique et financier Cinco Días et son site d’actualités El Huffpost (1). Trois mois auparavant, ce même Brad Lightcap annonçait un premier partenariat avec le groupe allemand Axel Springer pour son quotidien Die Welt, et son tabloïd Bild, ainsi que pour ses sites d’information Politico (édition européenne) et Business Insider (économie et finances). « Ce partenariat avec Axel Springer aidera à offrir aux gens de nouvelles façons d’accéder à du contenu de qualité, en temps réel, grâce à nos outils d’IA. Nous sommes profondément engagés à nous assurer que les éditeurs et les créateurs du monde entier bénéficient de la technologie avancée de l’IA et de nouveaux modèles de revenus », avait alors assuré le directeur des opérations d’OpenAI (2).

ChatGPT, polyglotte et informé : merci la presse
Ces « partenariats mondiaux d’information » permettent à ChatGPT d’européaniser un peu plus ses capacités d’informer en mettant à contribution trois premiers quotidiens du Vieux Continent, de trois langues différentes (français, espagnol et allemand). Et ce, après avoir largement entraîné en anglais ses grands modèles de langage « Generative Pre-trained Transformer » (GPT, GPT-2, GPT-3 et l’actuel GPT-4, en attendant GPT-5 en cours de développement). Avant les groupes européens Le Monde, Prisa Media et Axel Springer, OpenAI avait conclu aux Etats-Unis deux partenariats signés en juillets 2023 avec respectivement l’agence de presse américaine Associated Press (AP) et l’association de soutien à l’information locale American Journalism Project (AJP).

Sur fond de plainte du New York Times
« Nous sommes impatients d’apprendre d’AP [et de savoir] comment nos modèles d’IA peuvent avoir un impact positif sur l’industrie de l’information. L’accès à ses archives de textes factuels de haute qualité, aideront à améliorer les capacités et l’utilité des systèmes d’OpenAI », avait alors dit Brad Lightcap, lors de l’annonce le 13 juillet 2023 du partenariat avec l’agence de presse américaine (3). Depuis près d’une décennie, AP utilise la technologie de l’IA pour automatiser certaines tâches routinières et libérer les journalistes pour faire des reportages plus fouillés. Elle va même jusqu’à publier des dépêches automatisées prévisualisant et récapitulant certains événements sportifs, élargissant ainsi son offre de contenu.

Cinq jours après, le 18 juillet 2023, OpenAI nouait un premier accord journalistique avec cette fois l’American Journalism Project (AJP). Pour l’occasion, ce n’est pas Brad Lightcap qui avait fait une déclaration mais le cofondateur PDG d’OpenAI Sam Altman lui-même : « Nous sommes fiers de soutenir la mission de l’AJP consistant à renforcer notre démocratie en reconstruisant le secteur de l’information locale du pays. Cette collaboration souligne notre conviction que l’IA doit profiter à tous et être utilisée comme un outil pour améliorer le travail. Nous sommes impatients […] d’explorer les façons dont la technologie de l’IA peut renforcer le travail du journalisme local », avait-il expliqué (4). La société californienne (basée à San Francisco) a versé un crédit de 5 millions de dollars à cette association à but non lucratif soutenant l’information locale aux Etats-Unis pour aider des éditeurs et agences de presse locaux « à évaluer et à déployer les technologies émergentes d’IA au sein de leurs organisations », ainsi qu’« à développer des outils qui pourraient [les] aider ».
Par ailleurs, le 8 août 2023, OpenAI a versé 395.000 dollars pour la « Ethics and Journalism Initiative » de l’institut de journalisme Arthur L. Carter Journalism de l’Université de New York (5). La licorne OpenAI, cornaquée par Microsoft qui en est devenu actionnaire et investisseur à hauteur de 13 milliards de dollars, veut ainsi montrer patte blanche vis-à-vis des médias du monde entier avec son robot textuel présenté comme un partenaire du journalisme et respectueux du droit d’auteur. Et ce, au moment où GPT-4 est accusé de pirater les journaux – et, comme l’a montré le 6 mars dernier la société d’évaluation Patronus AI, les livres (6) – pour s’entraîner et apprendre automatiquement. Le New York Times, lui, n’a pas souhaité signer un accord « ChatGPT », préférant croiser le fer judiciaire en portant plainte le 27 décembre 2023 contre OpenAI devant le tribunal de New York. « Microsoft et OpenAI utilisent illégalement le travail du Times [le New York Times, ndlr] pour créer des produits d’intelligence artificielle qui lui font concurrence et menacent la capacité du Times à fournir ce service. Leurs outils d’IA générative (GenAI) reposent sur des grands modèles de langage (LLM, ou Large Language Model) qui ont été créés en copiant et en utilisant des millions d’articles de presse protégés par le droit d’auteur du Times, des enquêtes approfondies, des articles d’opinion, des critiques, des guides pratiques, etc », a dénoncé The New York Times Company dans sa plainte de 69 pages (7). Et d’accuser Microsoft et OpenAI d’avoir opéré un piratage d’ampleur sur son quotidien de référence : « Bien que Microsoft et OpenAI aient effectué des copies à grande échelle à partir de nombreuses sources, ils ont accordé une importance particulière au contenu du Times lors de la construction de leurs LLM, révélant une préférence qui reconnaît la valeur de ses œuvres. Grâce au Bing Chat de Microsoft (récemment rebaptisé Copilot) et au ChatGPT d’OpenAI, ces derniers cherchent à profiter de l’investissement massif du Times dans son journalisme en l’utilisant pour créer des produits de substitution sans autorisation ni paiement ».
OpenAI s’est inscrit en faut contre les allégations du New York Times, en assurant « travaill[er] dur dans [son] processus de conception technologique pour soutenir les organisations de presse ». Le labo-start-up de Sam Altman a aussi indiqué avoir discuté avec « des dizaines de personnes » (8), dont la News Media Alliance (exNewspaper Association of America) qui a « applaudi » le procès intenté par le NYT (9).

« Source significative de revenus » (Le Monde)
Malgré ses approches au cas par cas avec la presse et ses premiers accords de partenariat, OpenAI n’échappera pas – à l’instar de Google et Facebook en leur temps – à rendre des comptes devant la justice. La presse, le livre ou encore le cinéma hésitent entre accord et procès. En Europe, Le Monde, El País et Die Welt ont préféré signer avec « ChatGPT » plutôt que de trouver un accord-cadre collectif via, par exemple en France, l’Alliance de la presse d’information générale (Apig). Le groupe Le Monde se dit satisfait de cet accord qui, selon ses dirigeants Louis Dreyfus et Jérôme Fenoglio (10), a « l’avantage de consolider [son] modèle économique en apportant une source significative de revenus supplémentaires ». @

Charles de Laubier

Les enjeux du droit d’auteur à l’ère de l’intelligence artificielle (IA) : entre exceptions et interprétations

La propriété intellectuelle est entrée dans une zone de turbulences provoquées par les IA génératives. L’utilisation d’œuvres reste soumise à l’autorisation des auteurs, mais le droit d’auteur est limité dans certains cas comme la fouille de textes et de données. L’AI Act sera à interpréter.

Par Jade Griffaton et Emma Hanoun, avocates, DJS Avocats*

La récente législation européenne sur l’intelligence artificielle (IA) – l’AI Act dans sa dernière version de compromis final datée du 26 janvier 2024 (1) (*) (**) – adopte une définition flexible de « système d’IA », désigné comme « un système basé sur des machines conçues pour fonctionner avec différents niveaux d’autonomie et d’adaptabilité après leur déploiement et qui, à partir des données qu’il reçoit, génère des résultats tels que des prédictions, du contenu, des recommandations ou des décisions pouvant influencer des environnements physiques ou virtuels » (2).

Exception de « fouille de textes et de données »
La question de la relation entre le droit de la propriété littéraire et artistique et l’IA est une préoccupation ancienne. Lors de la phase d’entraînement, le système d’IA reçoit des données. A ce stade, se pose la question de l’intégration de contenus protégés par le droit d’auteur aux fins du développement du système. Lors de la phase de génération, le système d’IA génère des résultats, voire des créations, à la demande de l’humain. Se pose alors la question de l’encadrement juridique de ces créations générées, en tout ou partie, par un système d’IA. Ces problématiques juridiques actuelles doivent être envisagées à la lumière des nouveaux textes destinés à réguler le domaine de l’IA, et notamment la récente proposition de règlement européen sur l’IA, et la proposition de loi française visant à encadrer l’utilisation de l’IA par le droit d’auteur (3).
De nouveaux contours de la possibilité d’utiliser des œuvres pour entraîner l’IA ? Les systèmes d’IA ont besoin, au stade de leur apprentissage et développement, d’avoir accès à de grands volumes de textes, images, vidéos et autres données. Ces contenus sont susceptibles d’être protégés par le droit d’auteur. L’objectif principal du règlement IA, dévoilé en 2021 par la Commission européenne, consiste à réguler les systèmes d’IA introduits sur le marché européen, en adoptant une approche axée sur les risques et en assurant un niveau élevé de protection des droits fondamentaux, de la santé publique, de la sécurité et de l’environnement.

Ainsi, l’AI Act n’a pas vocation à traiter les questions relatives au droit d’auteur. Et pourtant, il n’ignore pas totalement leur importance en présence d’un système d’IA. A ce propos, le règlement renvoie à une exception – au principe d’obtention d’une autorisation de l’auteur pour toute utilisation de son œuvre – issue du droit de l’Union européenne (UE), celle de la fouille de textes et de données (text and data mining ou TDM). Cette exception – non spécifique aux systèmes d’IA – permet, semble-t-il, de justifier juridiquement l’utilisation de contenus protégés par le droit d’auteur en dispensant les opérateurs d’IA d’obtenir l’autorisation des auteurs qui ne se sont pas opposés expressément. Elle n’est pas nouvelle. C’est la directive européenne « Droit d’auteur et les droits voisins dans le marché unique numérique » de 2019 (4) qui a voulu rendre obligatoire pour les Etats membres de prévoir une exception aux droits de reproduction d’une œuvre et d’extraction d’une base de données, à des fins d’utilisation de technologies de fouille de textes et de données – technologies qui permettent une analyse informatique automatisée de textes, sons, images ou données sous forme numérique, en grande quantité, en vue d’acquérir de nouvelles connaissances. En y faisant ce renvoi, la proposition de règlement confirme, semble-t-il, que cette exception s’applique aux systèmes d’IA mais n’apporte aucune nouveauté en la matière. La proposition de loi française – dont l’objet même est, contrairement à la proposition européenne, d’encadrer l’IA par le droit d’auteur – envisage d’incorporer dans le code de propriété intellectuelle (CPI), au sein de l’article L.131-3, un alinéa prévoyant que l’intégration d’œuvres protégées par le droit d’auteur dans le système d’IA est soumise « à une autorisation par les auteurs ». Une telle formulation – « L’intégration par un logiciel d’intelligence artificielle d’œuvres de l’esprit protégées par le droit d’auteur dans son système et a fortiori leur exploitation est soumise aux dispositions générales du présent code et donc à autorisation des auteurs ou ayants droit » (5) – pourrait recevoir diverses interprétations.

Question de l’« autorisation des auteurs »
L’intégration des œuvres dans un système d’IA est un nouveau mode d’exploitation que la proposition semble avoir voulu prendre en compte. Doit-on comprendre que l’intégration dans une IA est une forme de reproduction de l’œuvre à laquelle s’applique, comme pour toutes formes de reproduction, l’exception de fouilles de textes et de données ? Dans ce cas, le régime actuel est inchangé : donc, les développeurs d’IA peuvent encore intégrer des œuvres à la phase d’entraînement, sauf opposition des auteurs. Doit-on plutôt comprendre que cette formulation veut rompre avec le régime actuel en consacrant expressément une exigence d’obtention d’autorisation de auteurs en écartant l’exception de fouilles de textes et de données ? Dans ce cas, le nombre d’œuvres pouvant être intégrées dans les systèmes d’IA serait réduit à celles dont une autorisation a été donnée, et non celles ne faisant pas l’objet d’opposition. La première interprétation semble la plus appropriée, notamment eu égard à la formulation de l’alinéa précisant que « [l’intégration] est soumise aux dispositions générales du présent code et donc à autorisation des auteurs », et à sa place dans le CPI (6).

Pays de « common law » et pays de « civil law »
Nouvelle exigence de transparence lorsque des œuvres sont utilisées par l’IA. La proposition AI Act, bien qu’elle n’ait pas vocation à traiter de la question du droit d’auteur, exige des fournisseurs de systèmes d’IA une certaine transparence lorsque des contenus protégés par un droit d’auteur ont été utilisés au stade du développement dudit système. En effet, le texte contraint les fournisseurs de modèles d’IA à finalité générale (« general purpose IA models ») à mettre en place une politique pour respecter le droit d’auteur de l’UE, et à rendre public un résumé suffisamment détaillé du contenu utilisé pour entraîner le modèle d’IA à finalité générale (7). La mise en place de la politique aurait pour objectif d’identifier et respecter les réservations de droits – ou oppositions – au titre de l’exception de fouilles de textes et de données.
La publication du résumé suffisamment détaillé devrait se faire à partir d’un modèle publié par l’Office de l’intelligence artificiel (OIA, ou AI Office), organe instauré par la proposition de législation. Il aurait pour objet – sans être techniquement détaillé – « par exemple d’énumérer les principales collections ou ensembles de données qui ont servi à la formation du modèle, tels que les grandes bases de données privées ou publiques ou les archives de données, et en fournissant une explication narrative sur les autres sources de données utilisées » (8). De telles exigences en termes de transparence témoignent de la prise en compte des exigences posées par le droit d’auteur. D’autant que le règlement IA prévoit que les obligations de transparences ne s’appliquent pas aux fournisseurs de systèmes d’IA rendant accessibles au public, sous licence libre ou ouverte, les modèles d’IA (9) sauf celles liées au droit d’auteur. Sortir les exigences de transparence liées au droit d’auteur de l’exception générale témoigne encore de leur importance.
Vers une remise en cause de la non-« protégeabilité » des créations issues d’un système d’IA ? Alors que les pays de « common law » comme le Royaume Uni et les Etats-Unis admettent la « protégeabilité » des œuvres générées par des machines (10) – notamment parce que l’œuvre est placée au centre et les auteurs obtiennent une protection indirecte à travers la protection directe de la propriété créée –, les pays de « civil law » ont tendance à refuser qu’une œuvre au sens juridique du terme puisse être créée par une machine dès lors que la protection est attachée directement à la personne de l’auteur. Traditionnellement, l’originalité s’entend en droit français et européen de l’empreinte de la personnalité de l’auteur en manifestant ses choix libres et créatifs (11). Une telle conception exclut a priori toute originalité d’une œuvre conçue par une IA du fait du défaut de personnalité de l’IA. Si, le règlement IA ne traite pas de la question de la « protégeabilité » des « créations » générées par l’IA, la proposition de loi française, a contrario, tente de plonger au cœur du sujet. Elle envisage d’intégrer au sein de l’article L.321-2 du CPI le cas précis d’une « œuvre créée par une intelligence artificielle sans intervention humaine directe » (12). Par cette disposition, le droit français semble admettre qu’une œuvre puisse être créée par une machine, et non un être humain. Dans ce cas, la proposition de loi désigne comme titulaires des droits, non pas les personnes ayant développé le système ou ayant commandé la création à la machine, mais les auteurs des œuvres intégrées au système d’IA lors de la phase d’entraînement.
L’œuvre serait-elle alors empreinte de la personnalité des auteurs des œuvres premières ayant servi à entraîner le système d’IA ? Ces auteurs seraient à la fois titulaires de droits sur leur œuvre première – sans difficulté – et de droits sur les œuvres générées par l’IA lorsque leur œuvre première aurait été exploitée au stade de développement de l’IA. La problématique qui se pose d’emblée en pratique est celle de la multitude de titulaires d’une œuvre générée par un système d’IA. La proposition de loi envisage alors que les droits soient gérés par des organismes de gestion collective (comme la Scam ou la Sacem) qui percevront la rémunération ou une taxation versée par la société qui exploite le système d’IA lorsque l’œuvre est engendrée par l’intégration d’œuvres dont l’origine ne peut être déterminée. La proposition de loi exige aussi que soit apposée la mention « Œuvre générée par IA » et inséré le nom des auteurs des œuvres premières.

Protection des œuvres générées par l’IA
En revanche, la protection accordée aux œuvres générées par l’IA ne semble pas aussi complète que celle accordée aux œuvres « classiques » : la proposition de loi française ne traite pas plus du droit moral ni des autres droits patrimoniaux que de celui de la rémunération juste et équitable des auteurs. Peut-être que cela s’explique par l’ambition de la proposition de loi « Encadrer l’intelligence artificielle par le droit d’auteur » de garantir une rémunération juste et équitable de l’exploitation des œuvres et de garantir une traçabilité des auteurs et artistes. Il reste à voir comment seront appréhendées en pratique de telles évolutions juridiques. @

* Article écrit avec la collaboration
de Camille Rodriguez, DJS Avocats