« Résumé suffisamment détaillé » : 2025 sera l’année de vérité dans la mise en œuvre de l’AI Act

Le rapport du CSPLA sur la mise en œuvre du règlement européen établissant des règles harmonisées sur l’IA fournit les ingrédients mais… pas la recette ! Le Bureau européen de l’IA, créé par l’AI Act, doit publier prochainement un « modèle européen » à suivre par les Vingt-sept.

Par Anne-Marie Pecoraro*, avocate associée, UGGC Avocats

Le rapport « IA et Transparence des données d’entraînement » (1), publié le 11 décembre 2024 par le Conseil supérieur de la propriété littéraire et artistique (CSPLA), s’inscrit dans la préparation de la mise en œuvre du règlement européen sur l’intelligence artificielle (AI Act) et a pour objectif de clarifier l’interprétation et la portée des dispositions imposant un modèle de « résumé suffisamment détaillé » (2). Ce modèle sera présenté au nom de la France dans le cadre du processus d’adoption d’un modèle européen par le Bureau européen de l’IA (AI Office), autorité créée par l’AI Act et chargée d’accompagner les fournisseurs d’IA dans leur mise en conformité. La publication du modèle européen est attendue pour janvier 2025.

Transparence des données d’entraînement
La collecte de données de qualité, notamment de données culturelles, est d’une importance stratégique pour les fournisseurs d’IA, puisque les systèmes d’IA ont besoin d’ingurgiter de grandes quantités de données, leur servant de modèles dans leurs productions. Or, des données contenant des créations protégées par un droit de propriété intellectuelle peuvent avoir été obtenues sans autorisation ou sans tenir compte d’un « opt-out », et avoir été effectivement exploitées. Il en va de même concernant des données personnelles (posts Facebook, Instagram, …) potentiellement utilisées pour l’entraînement de modèles d’IA. L’enjeu est alors d’avoir accès à l’information sur les données d’entraînement utilisées par une IA, pour bien des raisons et notamment ouvrir une visibilité aux ayants droits dont des données et/ou créations auraient été mobilisées, quelles qu’en soient les modalités.
Pour ce faire, les fournisseurs d’IA sont désormais soumis à une obligation de transparence qui se concrétise par la mise en place d’une politique de conformité, ainsi que par la mise à disposition au public d’un « résumé suffisamment détaillé » (sufficiently detailed summary) des contenus utilisés pour l’entraînement du modèle d’IA. Ce résumé permet le développement d’une IA de confiance souhaitée au niveau européen (3), en remédiant aux difficultés rencontrées par les titulaires de droits, confrontés à une charge de la preuve disproportionnée concernant l’utilisation de leurs contenus. Pour autant, le résumé doit répondre aux enjeux de la création d’un marché dynamique et équitable de l’IA. Ce qui impose un compromis pour restreindre la quantité d’informations mise à disposition afin de protéger le secret des affaires, moteur d’innovation pour les fournisseurs d’intelligence artificielle. (suite)

La mission à l’origine du rapport approuvé par le CSPLA (4) rappelle à ce titre qu’il convient de « donner à la transparence les conséquences attendues, à savoir créer un marché et permettre la rémunération des contenus » (5). Il s’appuie sur deux principaux points pour justifier son modèle de résumé.
En premier lieu, l’obligation de mettre en place une politique de conformité et celle de mettre à disposition du public un résumé suffisamment détaillé sont indissociables en ce qu’elles participent au même objectif de transparence. A ce titre, et par souci de cohérence avec le « codes de bonne pratique » (code of practice) attendu auprès du bureau de l’IA, la mission considère que la politique de conformité devrait apparaître, au moins dans ses grandes lignes, dans le résumé. La mission explicite certains des principaux éléments de conformité qui devraient figurer dans le résumé. Elle souligne que l’AI Act exige explicitement que la politique de conformité inclut l’« identification et le respect (…) des réserves de droits exprimées conformément à l’article 4, paragraphe 3, de la directive [« Copyright » de 2019 (6)] » (7), mécanisme dont les faiblesses ont été éclairées lors de la récente décision du tribunal régional d’Hambourg dans l’affaire « LAION c/ Robert Kneschke» (8).

Fouille de textes et de données (TDM)
Pour mémoire, le dispositif de ces articles que nous avons commenté (9) permet aux titulaires de droits de s’opposer à la fouille de textes et de données si les œuvres et autres objets protégés ont été réservés « par leurs titulaires de droits de manière appropriée, notamment par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne ». Or, le tribunal allemand a notamment validé l’application des exceptions de « fouille de textes et de données » (TDM) pour l’entraînement des systèmes d’IA. D’autre part, le tribunal allemand a pour la première fois en Europe établi un précédent concernant l’exception de TDM en insistant sur la nécessité pour les fournisseurs d’intelligence artificielle d’adopter des technologies pour respecter les clauses de réserve exprimées au titre de l’article 4 de la directive « Copyright ». En abordant la question de l’opt-out et la possibilité pour les détenteurs de droits de s’opposer à l’utilisation de leur contenu, le tribunal d’Hambourg a noté que l’opt-out exprimé en langage naturel pouvait être considéré comme « machine-lisible », ce qui aura des implications pour la manière dont les « optout » sont formulés et reconnus à l’avenir. Par conséquent, omettre de mentionner la clause de réserve de droits dans le résumé reviendrait à réduire la portée de l’obligation de transparence (10).

Détail du résumé et secret des affaires
Par ailleurs, le modèle de résumé devrait inciter les fournisseurs à préciser les protocoles reconnus par les « moissonneurs » de données qu’ils utilisent, que ce soit directement ou via des tiers et lorsqu’il s’agit de jeux de données obtenus gratuitement ou moyennant paiement auprès de tiers, et si des mesures ont été mises en place pour garantir que ces données ont été collectées en conformité avec la législation applicable, notamment en vérifiant l’existence d’une autorisation ou d’une licence.
En second lieu, le modèle de résumé doit être pensé afin de garantir un niveau de protection suffisant aux titulaires de droit tout en préservant l’innovation et ainsi conserver l’effet utile du texte. La mission du CSPLA souligne que la finalité du résumé telle que rappelée dans les considérants du règlement est d’« aider les parties ayant des intérêts légitimes, y compris les titulaires de droit d’auteur, à exercer et à faire respecter les droits que leur confère la législation de l’Union », sans pour autant porter atteinte au secret des affaires. A ce titre, le degré de détail du résumé doit s’apprécier au regard de cet objectif et de cette limite, afin de garantir l’effet utile du texte (11).
Pour garantir l’effet utile du résumé, le mission propose dans son rapport une approche graduée, ajustant le niveau de détail selon la nature des contenus, tout en veillant à préserver un équilibre avec le respect du secret des affaires. A ce titre, la mission estime que l’information relative aux contenus et le degré détail attendu est fonction du degré de fiabilité des sources. Pour les contenus libres de droit, ainsi que les contenus relevant d’arrangements contractuels, des informations générales peuvent suffire. Pour les autres contenus protégés, la mission estime que le secret des affaires ne saurait justifier de se borner à transmettre la liste des principales sources et donc ne pas transmettre la liste des URL (12), à savoir des adresses des sites web moissonnés. La mission souligne que l’AI Act insiste sur la nécessité de fournir un résumé complet pour permettre aux parties ayant des intérêts légitimes, comme les titulaires de droits d’auteur, d’exercer et de faire respecter leurs droits (13). Si le secret des affaires peut limiter le niveau de détail technique, il ne peut réduire le résumé au point de le rendre inefficace. Ainsi, la mission énonce comme essentielles certaines informations, telles que les URL des sites Internet d’où proviennent les données récupérées, la date de moissonnage, ainsi que la taille et le type de données utilisées. Toutefois, elle précise que des informations plus détaillées, comme les modalités d’utilisation des contenus (par exemple, méthode de filtrage ou tokenisation), relèvent du secret des affaires et ne doivent pas être divulguées dans le résumé public. Néanmoins, le secret des affaires ayant ses limites, ces informations pourront être divulguées dans le cadre d’une réclamation.
Le rapport du CSPLA se base notamment sur l’inopposabilité du secret des affaires au autorités judiciaires et administratives. A ce titre, la Cour de justice de l’Union européenne (CJUE) a considéré dans son arrêt « Dun&Bradstreet Austria GmbH » (14) que le secret des affaires ne saurait conduire à écarter le droit d’un individu, au titre du règlement européen sur la protection des données (RGPD) de comprendre une décision qui l’affecte. Pour la mission, cette solution est transposable aux dispositions de droit d’auteur issues des textes européens : le secret des affaires ne peut conduire, en vidant toute substance le résumé suffisamment détaillé, à écarter le droit qu’un titulaire de droits tire de l’AI Act à disposer d’éléments pouvant l’aider « à exercer et à faire respecter les droits que leur confère la législation de l’Union [européenne] ».
La mission souligne que si le Bureau de l’IA, lors de ses vérifications, n’a pas à examiner chaque œuvre ou contenu protégé individuellement pour contrôler la conformité des résumés fournis, l’AI Act n’interdit pas qu’un résumé inclut une liste des contenus protégés ou moissonnés, à condition que cette liste demeure globalement complète (15). L’exhaustivité de cette liste pourrait et devrait également être contrôlée dans le cadre d’une réclamation.

Droit d’auteur et données personnelles
Ainsi, pour la mission du CSPLA, il s’agit au stade du résumé public d’identifier les sources collectées pour l’entraînement de l’IA, mais pas encore d’explorer comment ces sources ont été utilisées, tenant compte du secret des affaires. Ces informations pouvant être révélées ultérieurement dans le cadre d’une réclamation, la protection des titulaires de droit demeure assurée. Les ingrédients donc… mais pas la recette. Le rapport du CSPLA confirme la lecture que l’on pouvait faire de l’AI Act, selon laquelle « l’obligation de transparence s’étend bien au-delà des contenus protégés par le droit d’auteur et les droits voisins » (16), et intègre notamment les données à caractère personnel. @

* Anne-Marie Pecoraro est avocate spécialisée en droit de
la propriété intellectuelle, des médias et des technologies.

Les deepfakes audio inquiètent l’industrie musicale

En fait. Le 10 septembre, la Fédération internationale de l’industrie phonographique (IFPI) a publié son premier rapport sur « la musique dans l’UE ». Au-delà des inquiétudes sur la croissance musicale dans les Vingt-sept, une nouvelle pratique préoccupe : les deepfakes audio. Les détecteurs s’organisent.

En clair. « L’industrie musicale est préoccupée par la capacité des systèmes d’IA de générer du contenu “deepfake” qui s’approprie sans autorisation la voix, l’image et la ressemblance distinctives des artistes », alerte la Fédération internationale de l’industrie phonographique (IFPI), dans son rapport sur la musique dans l’Union européenne (UE) publié le 10 septembre. « Cela peut induire les fans en erreur, porter gravement atteinte à la réputation d’un artiste et fausser la concurrence en permettant aux clones générés de concurrencer de manière déloyale les artistes dont la musique et l’image ont été utilisées pour former le modèle d’IA » redoute-t-elle.
Six jours avant, de l’autre côté de l’Atlantique, un dénommé Michael Smith a été arrêté par le FBI et présenté devant juge de Caroline du Nord pour avoir créé des centaines de milliers de chansons avec une intelligence artificielle et utilisé des programmes automatisés (bots) pour diffuser des milliards de fois ces chansons générées par l’IA sur les plateformes de streaming (Amazon Music, Apple Music, Spotify et YouTube Music). Ce stratagème de fake streams (1) a permis à l’accusé de générer frauduleusement plus de 10 millions de dollars de royalties (2). De l’IA générative musicale au deepfake audio, il n’y a qu’un pas : les deux pratiques utilisent des masses de données audio pour générer du contenu fictif mais audible et vraisemblable.

Les deepfakes audio peuvent être musicaux ou simplement vocaux, sous forme soit d’un fichier audio soit dans une vidéo. Exemple : le 12 août dernier, le chanteur Florent Pagny a indiqué qu’un de ses fans s’était fait escroquer de « quelques centaines d’euros » en croyant entendre et voir sur une vidéo son idole (3). Le détournement par deepfake audio peut aussi se faire entre artistes, à l’instar du rappeur Jason Medeiros du duo AllttA qui a sorti en mai 2023 le titre « Savages » avec la voix du géant américain du hip-hop Jay-Z, sauf que cette voix a été créée par une IA (4) – suscitant une polémique.
Pour tenter d’endiguer le phénomène, des outils de détection se multiplient tels que : Mockingbord lancé en janvier par l’éditeur d’anti-virus McAfee (5) ; ProRata de la start-up californienne ProRata AI (Idealab) pour rémunérer les éditeurs dont les contenus sont utilisés par des IA génératives ; LatticeFlow AI Audio de la société zurichoise LatticeFlow AI pour détecter les deepfakes audio (6). @

Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet.

Exception de Text and Data Mining
Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés. Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur prochaine du règlement européen sur l’intelligence artificielle – l’AI Act dont le texte final (1) a été signé le 13 juin 2024 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles.

En effet, l’article 53 et l’annexe XI de l’AI Act imposent, entre autres, aux fournisseurs de modèles d’IA à usage général (2) de mettre à disposition des informations sur les données utilisées pour l’entraînement de ces modèles, au moyen d’un document-type qui sera mis à disposition par le bureau de l’IA (AI Office). Ils doivent notamment indiquer comment ces données ont été obtenues et sélectionnées, ainsi que toutes les mesures prises pour détecter les sources de données inadéquates. Pour pouvoir se conformer de manière sereine à ces nouvelles exigences (3), il est indispensable de s’assurer que les données d’entraînement ont été récupérées et collectées dans le respect des droits de propriété intellectuelle et du RGPD, sous peine de risquer des actions en contrefaçon ou des procédures de sanction devant les autorités de contrôle (4). En effet, le contenu d’un site Internet qu’un acteur entend scrapper (« moissonner ») pour constituer une base de données d’entraînement peut à la fois contenir des données à caractère personnel, mais également être protégé au titre du droit d’auteur (5) ou du droit des bases de données (6). Or, par principe, toute reproduction et utilisation d’un contenu protégé par un droit de propriété intellectuelle nécessite d’obtenir l’autorisation du titulaire des droits concernés. Néanmoins, afin de favoriser le développement de l’IA, le code de la propriété intellectuelle (CPI) a introduit, pour le droit d’auteur et le droit des producteurs de bases de données, les exceptions de fouilles de textes et de données (dites de Text and Data Mining) qui permettent de scrapper des données à des fins d’entraînement des modèles, sous réserve de respecter un certain nombre de conditions. Il y a en réalité deux régimes : la fouille de textes et de données à des fins de recherche scientifique (7) et celle à des fins diverses (8).
L’exception de fouille à des fins de recherches scientifique présente l’avantage d’être un droit absolu (le titulaire des droits ne peut pas s’y opposer), sous réserve que l’accès aux données soit réalisé de manière licite (9). Néanmoins, son périmètre est relativement restreint puisque seuls peuvent s’en prévaloir certains acteurs limitativement énumérés (10). La plupart des fournisseurs de systèmes d’IA ne peut donc pas mobiliser cette exception et doit se rabattre sur l’exception générale dite à des fins diverses. Pour pouvoir invoquer le bénéfice de cette exception générale, le fournisseur de système d’IA doit accéder aux données de manière licite et s’assurer que le titulaire des droits de propriété intellectuelle ne s’y est pas opposé.

« Moissonnage » et données personnelles
Les textes précisent que l’opposition du titulaire des droits « n’a pas à être motivée et peut être exprimée par tout moyen », notamment « au moyen de procédés lisibles par machine, y compris des métadonnées, et par le recours à des conditions générales d’utilisation » (11). Pour l’opposition via des procédés techniques, plusieurs outils existent (Robot.txt, AI.txt, TDMRep, …). En pratique, cela signifie que pour pouvoir scrapper les données des sites Internet à des fins d’entraînement des modèles, les fournisseurs de systèmes d’IA ne doivent pas contourner les éventuels dispositifs de protection existants (par exemple un accès restreint par un compte utilisateur) et doivent s’assurer, au moment de l’extraction des données, que les conditions générales d’utilisation (CGU) et/ou mentions légales du site Internet ne contiennent pas de clause interdisant l’extraction des données et que les métadonnées du site Internet n’expriment pas non plus une telle interdiction. L’AI Act confirme ce dernier point (12).
Lorsqu’un titulaire de droits s’est opposé à l’extraction de ses données, le fournisseur de système d’IA n’a d’autre choix que d’obtenir une autorisation expresse (13) au moyen d’un accord de licence ou de partenariat, comme ont récemment pu le faire OpenAI avec Le Monde, Die Welt et El País (14). Une fois ces vérifications opérées, le fournisseur de système d’IA devra suivre des étapes supplémentaires si le contenu qu’il souhaite « moissonner » contient des données à caractère personnel, afin de respecter le RGPD.

Base légale de l’intérêt légitime
Ces derniers mois, la Cnil a publié plusieurs fiches pour guider les fournisseurs de systèmes d’IA (15) au sein desquelles elle clarifie comment appliquer les principes clefs aux spécificités de l’IA. Elle y admet qu’il est possible de fonder les traitements d’entraînement des modèles d’IA sur la base légale de l’intérêt légitime, notamment lorsque les données sont collectées à partir de sources publiques (16), sous réserve de mener une analyse au cas par cas permettant de documenter la légitimité de l’intérêt poursuivi, sa nécessité et le fait qu’il n’y a pas d’atteinte disproportionnée aux intérêts, droits et libertés des personnes. Pour autant, en juin 2024, Noyb a porté plainte – auprès de onze « Cnil » en Europe – contre Meta dont il conteste la faculté de se fonder sur l’intérêt légitime pour récupérer les données de Facebook et Instagram afin d’entraîner ses modèles d’IA. Dans l’attente, Meta a stoppé son projet (17).
La première étape avant de scrapper des données à caractère personnel est de définir la finalité du traitement, à partir de laquelle l’analyse de conformité aux principes de protection des données personnelles pourra être réalisée. A partir de cette finalité (créer une base de données afin d’entraîner des modèles d’IA permettant d’évaluer l’appréciation d’œuvres par le public, développer un LLM capable de répondre à des questions, générer du texte, effectuer des résumés, etc,…), le fournisseur de modèles d’IA devra s’assurer du respect du principe de minimisation, en ne collectant que les données pertinentes et nécessaires pour atteindre son objectif. Concrètement, cela signifie qu’il doit s’interroger en amont sur les catégories de données nécessaires pour l’entraînement du modèle d’IA. En pratique, il devra définir les catégories de données à collecter et mettre en place des filtres permettant d’exclure la collecte de certaines données. Dans sa fiche dédiée au web scraping (18), la Cnil précise que dans l’hypothèse où des données non pertinentes seraient collectées malgré les filtres mis en place, il convient de supprimer ces données, immédiatement après leur collecte ou dès elles ont été identifiées. Elle appelle également à la prudence sur la collecte automatique de données sensibles en invitant les fournisseurs à appliquer des filtres permettant d’écarter la collecte de données sensibles (19) non pertinentes ou à exclure de leurs activités de scraping certains sites comportant par nature ce type de données.
Respecter le RGPD suppose, par ailleurs, d’informer les personnes concernées et de faciliter l’exercice de leurs droits. La Cnil reconnaît (20) qu’en cas de collecte parweb scraping, une information individuelle des personnes pourrait, dans certains cas, être disproportionnée et donc non obligatoire. Elle recommande alors au fournisseur du système d’IA de fournir une information générale (par exemple au sein de sa politique de confidentialité) contenant notamment les catégories de sites sources utilisés avec des liens hypertextes vers ceux-ci, en proposant un modèle dédié. Pour les droits des personnes, elle rappelle qu’un responsable du traitement n’a pas à conserver ou collecter des informations supplémentaires qui ne lui sont pas nécessaires dans le seul but de permettre l’exercice des droits. La Cnil propose néanmoins des exemples de mesures que les fournisseurs de modèles d’IA pourraient mettre en place pour faciliter l’exercice des droits (comme la conservation de métadonnées ou d’informations sur la source des données pour faciliter la recherche d’une personne au sein de la base ou l’indication aux personnes des données à fournir pour les identifier).
La Cnil propose enfin de mettre en place des mesures supplémentaires pour garantir l’équilibre attendu de ces traitements basés sur l’intérêt légitime. Certaines mesures découlant des règles précédemment citées semblent réalisables : exclure par défaut la collecte à partir de certains sites contenant des données intrusives ; prévoir la possibilité de s’opposer au traitement de manière discrétionnaire ; appliquer des procédés d’anonymisation ou de pseudonymisation après la collecte des données. D’autres semblent moins pragmatiques.

AI Office : recommandations très attendues
Certains acteurs pourraient ainsi saisir l’opportunité de remonter leurs questionnements, difficultés pratiques, appréciation des règles dans le cadre de la consultation publique à laquelle sont soumises certaines fiches jusqu’au 15 septembre 2024 (21) ou répondre au questionnaire (22). A l’aune de l’entrée en vigueur de l’AI Act, les fournisseurs de modèles d’IA à usage général attendront donc les précieuses recommandations et modèles du bureau de l’IA, tout récemment créé (23), sur les documents à produire pour les sources de données d’entraînement, afin de leur permettre d’engager les travaux nécessaires à la compilation de ces informations. @

Le Monde en France, El País en Espagne, Die Welt en Allemagne : OpenAI séduit la presse au cas par cas

OpenAI a réussi à convaincre de grands titres de presse en Europe – Le Monde, El País et Die Welt – et, aux Etats-Unis, l’agence de presse AP et l’American Journalism Project pour que son IA générative ChatGPT soit plus au fait de l’actualité dans des langues différentes. Le New York Times, lui, a préféré un procès.

Le directeur des opérations d’OpenAI, Brad Lightcap (photo), n’est pas peu fier d’avoir décroché des accords pluriannuels avec les grands quotidiens européens Le Monde en France, El País en Espagne et Die Welt en Allemagne. « En partenariat avec Le Monde et Prisa Media [éditeur d’El País], notre objectif est de permettre aux utilisateurs de ChatGPT du monde entier de se connecter à l’actualité de façon interactive et pertinente », s’est-il félicité le 13 mars dernier lors de l’annonce des deux accords noués pour plusieurs années avec respectivement le groupe français Le Monde pour son quotidien éponyme et le groupe espagnol Prisa Media pour son quotidien El País, de même que pour son quotidien économique et financier Cinco Días et son site d’actualités El Huffpost (1). Trois mois auparavant, ce même Brad Lightcap annonçait un premier partenariat avec le groupe allemand Axel Springer pour son quotidien Die Welt, et son tabloïd Bild, ainsi que pour ses sites d’information Politico (édition européenne) et Business Insider (économie et finances). « Ce partenariat avec Axel Springer aidera à offrir aux gens de nouvelles façons d’accéder à du contenu de qualité, en temps réel, grâce à nos outils d’IA. Nous sommes profondément engagés à nous assurer que les éditeurs et les créateurs du monde entier bénéficient de la technologie avancée de l’IA et de nouveaux modèles de revenus », avait alors assuré le directeur des opérations d’OpenAI (2).

ChatGPT, polyglotte et informé : merci la presse
Ces « partenariats mondiaux d’information » permettent à ChatGPT d’européaniser un peu plus ses capacités d’informer en mettant à contribution trois premiers quotidiens du Vieux Continent, de trois langues différentes (français, espagnol et allemand). Et ce, après avoir largement entraîné en anglais ses grands modèles de langage « Generative Pre-trained Transformer » (GPT, GPT-2, GPT-3 et l’actuel GPT-4, en attendant GPT-5 en cours de développement). Avant les groupes européens Le Monde, Prisa Media et Axel Springer, OpenAI avait conclu aux Etats-Unis deux partenariats signés en juillets 2023 avec respectivement l’agence de presse américaine Associated Press (AP) et l’association de soutien à l’information locale American Journalism Project (AJP).

Sur fond de plainte du New York Times
« Nous sommes impatients d’apprendre d’AP [et de savoir] comment nos modèles d’IA peuvent avoir un impact positif sur l’industrie de l’information. L’accès à ses archives de textes factuels de haute qualité, aideront à améliorer les capacités et l’utilité des systèmes d’OpenAI », avait alors dit Brad Lightcap, lors de l’annonce le 13 juillet 2023 du partenariat avec l’agence de presse américaine (3). Depuis près d’une décennie, AP utilise la technologie de l’IA pour automatiser certaines tâches routinières et libérer les journalistes pour faire des reportages plus fouillés. Elle va même jusqu’à publier des dépêches automatisées prévisualisant et récapitulant certains événements sportifs, élargissant ainsi son offre de contenu.

Cinq jours après, le 18 juillet 2023, OpenAI nouait un premier accord journalistique avec cette fois l’American Journalism Project (AJP). Pour l’occasion, ce n’est pas Brad Lightcap qui avait fait une déclaration mais le cofondateur PDG d’OpenAI Sam Altman lui-même : « Nous sommes fiers de soutenir la mission de l’AJP consistant à renforcer notre démocratie en reconstruisant le secteur de l’information locale du pays. Cette collaboration souligne notre conviction que l’IA doit profiter à tous et être utilisée comme un outil pour améliorer le travail. Nous sommes impatients […] d’explorer les façons dont la technologie de l’IA peut renforcer le travail du journalisme local », avait-il expliqué (4). La société californienne (basée à San Francisco) a versé un crédit de 5 millions de dollars à cette association à but non lucratif soutenant l’information locale aux Etats-Unis pour aider des éditeurs et agences de presse locaux « à évaluer et à déployer les technologies émergentes d’IA au sein de leurs organisations », ainsi qu’« à développer des outils qui pourraient [les] aider ».
Par ailleurs, le 8 août 2023, OpenAI a versé 395.000 dollars pour la « Ethics and Journalism Initiative » de l’institut de journalisme Arthur L. Carter Journalism de l’Université de New York (5). La licorne OpenAI, cornaquée par Microsoft qui en est devenu actionnaire et investisseur à hauteur de 13 milliards de dollars, veut ainsi montrer patte blanche vis-à-vis des médias du monde entier avec son robot textuel présenté comme un partenaire du journalisme et respectueux du droit d’auteur. Et ce, au moment où GPT-4 est accusé de pirater les journaux – et, comme l’a montré le 6 mars dernier la société d’évaluation Patronus AI, les livres (6) – pour s’entraîner et apprendre automatiquement. Le New York Times, lui, n’a pas souhaité signer un accord « ChatGPT », préférant croiser le fer judiciaire en portant plainte le 27 décembre 2023 contre OpenAI devant le tribunal de New York. « Microsoft et OpenAI utilisent illégalement le travail du Times [le New York Times, ndlr] pour créer des produits d’intelligence artificielle qui lui font concurrence et menacent la capacité du Times à fournir ce service. Leurs outils d’IA générative (GenAI) reposent sur des grands modèles de langage (LLM, ou Large Language Model) qui ont été créés en copiant et en utilisant des millions d’articles de presse protégés par le droit d’auteur du Times, des enquêtes approfondies, des articles d’opinion, des critiques, des guides pratiques, etc », a dénoncé The New York Times Company dans sa plainte de 69 pages (7). Et d’accuser Microsoft et OpenAI d’avoir opéré un piratage d’ampleur sur son quotidien de référence : « Bien que Microsoft et OpenAI aient effectué des copies à grande échelle à partir de nombreuses sources, ils ont accordé une importance particulière au contenu du Times lors de la construction de leurs LLM, révélant une préférence qui reconnaît la valeur de ses œuvres. Grâce au Bing Chat de Microsoft (récemment rebaptisé Copilot) et au ChatGPT d’OpenAI, ces derniers cherchent à profiter de l’investissement massif du Times dans son journalisme en l’utilisant pour créer des produits de substitution sans autorisation ni paiement ».
OpenAI s’est inscrit en faut contre les allégations du New York Times, en assurant « travaill[er] dur dans [son] processus de conception technologique pour soutenir les organisations de presse ». Le labo-start-up de Sam Altman a aussi indiqué avoir discuté avec « des dizaines de personnes » (8), dont la News Media Alliance (exNewspaper Association of America) qui a « applaudi » le procès intenté par le NYT (9).

« Source significative de revenus » (Le Monde)
Malgré ses approches au cas par cas avec la presse et ses premiers accords de partenariat, OpenAI n’échappera pas – à l’instar de Google et Facebook en leur temps – à rendre des comptes devant la justice. La presse, le livre ou encore le cinéma hésitent entre accord et procès. En Europe, Le Monde, El País et Die Welt ont préféré signer avec « ChatGPT » plutôt que de trouver un accord-cadre collectif via, par exemple en France, l’Alliance de la presse d’information générale (Apig). Le groupe Le Monde se dit satisfait de cet accord qui, selon ses dirigeants Louis Dreyfus et Jérôme Fenoglio (10), a « l’avantage de consolider [son] modèle économique en apportant une source significative de revenus supplémentaires ». @

Charles de Laubier

ChatGPT, Midjourney, Flow Machines, … : quel droit d’auteur sur les créations des IA génératives ?

Face à la déferlante des IA créatives et génératives, le droit d’auteurs est quelque peu déstabilisé sur ses bases traditionnelles. La qualification d’« œuvre de l’esprit » bute sur ces robots déshumanisés. Le code de la propriété intellectuelle risque d’en perdre son latin, sauf à le réécrire. Par Véronique Dahan, avocate associée, et Jérémie Leroy-Ringuet, avocat, Joffe & Associés L’utilisation de l’intelligence artificielle (IA) par les entreprises, notamment en communication, est de plus en plus répandue. Des logiciels tels que Stable Diffusion, Midjourney, Craiyon, ou encore Dall·E 2 permettent de créer des images à partir d’instructions en langage naturel (le « text-to-image »). Il est également possible de créer du texte avec des outils tels que le robot conversationnel ChatGPT lancé en novembre 2022 par OpenAI (1), voire de la musique avec Flow Machines de Sony (2). Flou artistique sur le droit d’auteur Les usages sont assez variés : illustration d’un journal, création d’une marque, textes pour un site Internet, un support publicitaire ou pour un post sur les réseaux sociaux, création musicale, publication d’une œuvre littéraire complexe, …, et bientôt produire des films. Les artistes s’en sont emparés pour développer une forme d’art appelé « art IA », « prompt art » ou encore « GANisme » (3). Et, parfois, les artistes transforment les résultats obtenus en NFT (4), ces jetons non-fongibles authentifiant sur une blockchain (chaîne de blocs) un actif numérique unique. Pour produire un texte, une image ou une musique sur commande, le logiciel a besoin d’être nourri en textes, images ou musiques préexistantes et en métadonnées sur ces contenus (« deep learning »). Plus le logiciel dispose d’informations fiables, plus le résultat sera probant. Comme toute nouveauté technologique, l’utilisation de ces logiciels soulève de nombreuses questions juridiques. La question centrale en matière de propriété intellectuelle est de savoir à qui appartiennent les droits – s’ils existent – sur les contenus générés par l’IA ? En droit français, une œuvre est protégeable si elle est originale. L’originalité est définie comme révélant l’empreinte de la personnalité de l’auteur, qui ne peut être qu’un être humain. Il faut donc déterminer qui est l’auteur, ou qui sont les auteurs d’une image, d’un texte ou d’une musique créés via une instruction donnée à un logiciel. Il faut aussi déterminer qui peut en être titulaire des droits. Il pourrait s’agir des auteurs des œuvres préexistantes, de nous-mêmes lorsque nous avons donné une instruction au logiciel, ou encore de l’auteur du logiciel (par exemple la société Stability AI qui développe Stable Diffusion). Les entités exploitant ces logiciels contribuent au processus permettant d’obtenir des textes, images ou des musiques inédites, dans la mesure où ce sont ces générateurs de contenus qui proposent un résultat comprenant un ensemble de choix plutôt qu’un autre. Ainsi, c’est la part d’« autonomie » des logiciels d’IA qui jette le trouble dans la conception traditionnelle du droit d’auteur. Un tribunal de Shenzhen (Chine) avait jugé en 2019 qu’un article financier écrit par Dreamwriter (IA mise au point par Tencent en 2015) avait été reproduit sans autorisation, reconnaissant ainsi que la création d’une IA pouvait bénéficier du droit d’auteur. Néanmoins, la contribution du logiciel se fait de manière automatisée et, à notre sens, l’usage technique d’un logiciel pour créer une image, un texte ou une musique ne donne pas au propriétaire du logiciel de droits sur l’image, sur le texte ou la musique : en l’absence d’une intervention humaine sur le choix des couleurs, des formes ou des sons, aucun droit d’auteur ou de coauteur ne peut être revendiqué au nom du logiciel. Le 21 février 2023, aux Etats-Unis, l’Office du Copyright a décidé que des images de bande dessinée créées par l’IA Midjourney ne pouvaient pas être protégées par le droit d’auteur (5). Les conditions d’utilisation de ces générateurs de textes, d’images ou de musiques peuvent le confirmer. Dans le cas de Dall·E 2, les « Terms of use » prévoient expressément que OpenAI transfère à l’utilisateur tous les droits sur les textes et les images obtenus, et demande même que le contenu ainsi généré soit attribué à la personne qui l’a « créé » ou à sa société. Stability AI octroie une licence de droits d’auteur perpétuelle, mondiale, non exclusive, gratuite, libre de redevances et irrévocable pour tous types d’usage de Stable Diffusion, y compris commercial. Mais en l’absence, selon nous, de tout droit transférable, ces dispositions semblent constituer de simples précautions. Droits de la personne utilisant le logiciel Il est donc essentiel, pour toute personne qui souhaite utiliser, à titre commercial ou non, les contenus créés via des outils d’IA, générative ou créative, de vérifier si la société exploitant le site en ligne où il les crée lui en donne les droits et à quelles conditions. Dès lors que l’apport créatif de la personne qui donne les instructions au générateur d’images, de textes ou de musique est limité à la production d’une idée mise en œuvre par le logiciel, et que les idées ne sont pas protégeables par le droit d’auteur, il est douteux qu’un tribunal reconnaisse la qualité d’auteur à cette personne. Puisque l’utilisateur du logiciel ne conçoit pas mentalement, à l’avance, le contenu obtenu, il est difficile d’avancer que ce contenu porte « l’empreinte de sa personnalité ». Mais surtout, on pourrait aller jusqu’à dénier la qualification d’œuvre de l’esprit aux images, textes ou musiques créés par l’IA. En effet, le code de la propriété intellectuelle (CPI) n’accorde la protection du droit d’auteur qu’à des « œuvres de l’esprit » créées par des humains. « Œuvre de l’esprit » inhérente à l’humain Faute d’action positive créatrice de la part d’un humain, on pourrait avancer qu’aucun « esprit » n’est mobilisé, donc qu’aucune « œuvre de l’esprit »protégeable par le droit d’auteur n’est créée. S’ils ne sont pas des « œuvres de l’esprit », les contenus ainsi créés seraient alors des biens immatériels de droit commun. Ils sont appropriables non pas par le droit d’auteur (6) mais par la possession (7) ou par le contrat (conditions générales octroyant la propriété à l’utilisateur). Il s’agit alors de créations libres de droit, appartenant au domaine public. Cela fait écho à d’autres types d’« œuvres » sans auteur comme les peintures du chimpanzé Congo ou les célèbres selfies pris en 2008 par un singe macaque. Sur ce dernier exemple, les juridictions américaines avaient décidé que l’autoportrait réalisé par un singe n’était pas une œuvre protégeable puisqu’il n’a pas été créé par un humain, sujet de droits. En revanche, dès lors que le résultat obtenu est retravaillé et qu’un apport personnel formel transforme ce résultat, la qualification d’« œuvre de l’esprit » peut être retenue, mais uniquement en raison de la modification originale apportée au résultat produit par le logiciel. Ce cas de figure est d’ailleurs prévu dans la « Sharing & Publication Policy » de Dall·E 2 qui demande à ses utilisateurs modifiant les résultats obtenus de ne pas les présenter comme ayant été entièrement produits par le logiciel ou entièrement produits par un être humain, ce qui est davantage une règle éthique, de transparence, qu’une exigence juridique. En droit français, une œuvre nouvelle qui incorpore une œuvre préexistante sans la participation de son auteur est dite « composite » (8). Si les œuvres préexistantes sont dans le domaine public, leur libre utilisation est permise (sous réserve de l’éventuelle opposition du droit moral par les ayants droit). En revanche, incorporer sans autorisation une œuvre préexistante toujours protégée constitue un acte de contrefaçon. Si, par exemple, on donne l’instruction « Guernica de Picasso en couleurs », on obtiendra une image qui intègre et modifie une œuvre préexistante. Or les œuvres de Picasso ne sont pas dans le domaine public et les ayants droit doivent pouvoir autoriser ou interdire non seulement l’exploitation de l’image obtenue et en demander la destruction, mais peutêtre aussi interdire ou autoriser l’usage des œuvres de Picasso par le logiciel. La production et la publication par un utilisateur d’un « Guernica en couleurs » pourraient donc constituer une contrefaçon ; mais l’intégration de Guernica dans la base de données du logiciel (deep learning) pourrait à elle seule constituer également un acte contrefaisant (9). En effet, le CPI sanctionne le fait « d’éditer, de mettre à la disposition du public ou de communiquer au public, sciemment et sous quelque forme que ce soit, un logiciel manifestement destiné à la mise à disposition du public non autorisée d’œuvres ou d’objets protégés » (10). Le caractère « manifeste » de la mise à disposition, et la qualification de « mise à disposition » elle-même pourraient être discutés. Mais c’est surtout la directive européenne « Copyright » de 2019 (11) qui pourrait venir en aide aux exploitants d’IA génératrices de contenus en offrant une sécurisation de leur usage d’œuvres préexistantes protégées. Elle encadre l’exploitation à toutes fins, y compris commerciales, d’œuvres protégées pour en extraire des informations, notamment dans le cas des générateurs de textes, d’images ou de musiques. Elle prévoit également une possibilité pour les titulaires de droits sur ces œuvres d’en autoriser ou interdire l’usage, hors finalités académiques. Une telle autorisation peut difficilement être préalable et les exploitants, OpenAI par exemple, mettent donc en place des procédures de signalement de création de contenu contrefaisant (12). Le site Haveibeentrained.com propose, quant à lui, de vérifier si une image a été fournie comme input à des générateurs d’images et de signaler son souhait de retirer l’œuvre de la base de données. Mais les artistes se plaignent déjà de la complexité qu’il y a à obtenir un tel retrait (13). On le voit, l’irruption des créations de l’IA perturbe le droit de la propriété intellectuelle, dont les outils actuels sont insuffisants pour répondre aux questionnements suscités. On peut imaginer que l’IA permettra un jour de produire de « fausses » sculptures de Camille Claudel, en s’adjoignant la technologie de l’impression 3D, ou encore de faire écrire à Rimbaud ou à Mozart des poèmes et des symphonies d’un niveau artistique équivalent – voire supérieur ! – qu’ils auraient pu écrire et jouer s’ils n’étaient pas morts si jeunes. La question de l’imitation du style d’auteurs encore vivant n’est d’ailleurs pas sans soulever d’autres débats. Risque de déshumanisation de la création Un avenir possible de l’art pourrait être dans la déshumanisation de la création, ce qui non seulement rendrait indispensable une refonte du premier livre du CPI, sous l’impulsion du règlement européen « AI Act » en discussion (14), mais susciterait en outre des questionnements éthiques. Si le public prend autant de plaisir à lire un roman écrit par une machine ou à admirer une exposition d’œuvres picturales créées par un logiciel, voire à écouter une musique composée et jouée par l’IA, les professions artistiques survivront-elles à cette concurrence ? @