Tournant judiciaire aux Etats-Unis en faveur du droit d’auteur d’artistes contre des IA génératives

Dans la torpeur de l’été, le juge d’un tribunal de Californie a donné raison à des artistes qui ont porté plainte contre des IA génératives – Stable Diffusion de Stability AI en tête – qui utilisent leurs images sans autorisation et au mépris du copyright. Ce jugement constitue une étape majeure.

C’est une première victoire des artistes aux Etats-Unis contre les IA génératives qui utilisent des milliards d’images pour répondre aux requêtes de millions d’internautes dans le monde. Le juge fédéral américain William Orrick (photo), officiant au tribunal du district nord de la Californie, a décidé le 12 août 2024 que les plaintes des artistes – contre les sociétés Stability AI (avec son IA générative Stable Diffusion), Midjourney (avec son IA générative du même nom), Runway AI (IA génératives multimédias à l’aide de DreamUp) et DeviantArt (réseau social de créatifs) – étaient recevables.

Stability, Midjourney, Runway, DeviantArt
Dans son ordonnance de 33 pages (1), le juge Orrick reconnaît qu’il y a violation du droit d’auteur et de marques déposées dès lors que les IA génératives ont été construites – lors de leur entraînement – sur des milliards d’images protégées et sans l’autorisation de leurs auteurs et artistes. La plainte examinée a été déposée l’an dernier et se focalise sur la grande base de données LAION – Large-scale Artificial Intelligence Open Network (2) – qui a été constituée à partir de 5 milliards d’images, lesquels auraient été récupérées sur Internet et exploitées par Stability AI, Midjourney, Runway AI et DeviantArt.
Les artistes à l’origine de la plainte affirment que « l’ensemble des données “LAION-5B” contient seulement des URL d’images d’entraînement, et non pas les images réelles d’entraînement ». Par conséquent, affirment-ils, « quiconque souhaite utiliser LAION-5B pour former son propre modèle d’apprentissage automatique doit d’abord acquérir des copies des images de formation réelles à partir de ses URL en utilisant l’ensemble de données ‘’img2dataset’’ ou un autre outil similaire ».

Ils estiment qu’il y a « infraction directe », en faisant référence à la diffusion guidée par CLIP (Contrastive Language- Image Pre-training) dans la phase d’entraînement mais aussi dans l’utilisation, après la formation. Il s’agit en fait d’un modèle d’IA développé par OpenAI, la société à l’origine de ChatGPT, qui associe des images et des textes pour permettre une compréhension et une génération plus avancées de contenu visuel et textuel. Le juge est allé dans le sens des artistes en concluant que l’IA générative Stable Diffusion de Satability AI a été construite à partir d’images protégées par le droit d’auteur et que « la façon dont le produit fonctionne fait nécessairement appel à des copies ou à des éléments protégés de ces œuvres ». Dans leur class action formée en 2023, les artistes accusent la société Stability AI de violation directe du droit d’auteur d’œuvres enregistrées provenant de la base de donnée « LAION-5B » en formant ses modèles – ou LLM (Large Language Model) – d’intelligence artificielle générative que sont notamment Stable Diffusion 2.0 et Stable Diffusion X. Ils l’accusent aussi d’« inciter à la violation du droit d’auteur en distribuant gratuitement Stable Diffusion 2.0 et Stable Diffusion XL », tout en violant aussi le Digital Millennium Copyright Act (DMCA), à savoir la loi américaine sur le droit d’auteur à l’ère du numérique, « en supprimant et en modifiant les renseignements sur la gestion des droits d’auteur » (3) des images pour l’entraînement de ses IA génératives. Et ce, en s’enrichissant de façon injustifiée.
La société Runway AI est elle aussi accusée de violation directe du droit d’auteur des œuvres enregistrées de la « LAION-5B » en formant ses propres modèles, y compris Stable Diffusion. Parmi les artistes dont les œuvres ont été utilisées illégalement, il y a par exemple Karla Ortiz qui a travaillé sur « Black Panther » ou encore « Avengers: Infinity War ». La société Midjourney est elle aussi dans le collimateur de la justice américaine pour, là aussi, violation directe du droit d’auteur des œuvres enregistrées de la base d’entraînement « LAION-400M » pour cette fois, pour former ses modèles, y compris la version 1 de Midjourney, ainsi que de la « LAION-400M5B » pour la version 5.2 de Midjourney. Quant à la communauté artistique DeviantArt, elle est poursuivie aussi pour violation directe du droit d’auteur en copiant le modèle DreamUp-CompVis et en l’incorporant dans DreamUp.

Depuis 2023, les artistes ont précisé les faits
« En octobre 2023, j’avais largement fait droit aux requêtes en rejet présentées par les défendeurs Stability, Midjourney et DeviantArt. La seule réclamation qui a survécu est la réclamation d’infraction directe contre Stability AI, fondée sur la création et l’utilisation présumées d’“images d’entraînement” saisies dans les ensembles de données du LAION et utilisées pour former Stable Diffusion », a rappelé William Orrick, en laissant aux artistes de la class action la possibilité de modifier leur plainte « pour clarifier leurs théories sur la façon dont chaque [entreprises accusées] a violé leurs droits d’auteur, supprimé ou modifié les renseignements sur la gestion de leur droit d’auteur, ou a violé leurs droits à la publicité et des faits plausibles à l’appui ». Les artistes ont donc depuis clarifié leur demande concernant les copies compressées des images d’entraînement et pour étayer les faits sur la façon dont Stable Diffusion – « un programme open source, du moins en partie » – fonctionne par rapport aux images d’entraînement. Ils ont pour cela ajouté la plainte contre Runway AI et sept nouveaux artistes en plus des premiers à l’origine de la plainte.

Cependant, pas de violation du DMCA
« Les demandeurs ont raison de dire que l’autorisation de modifier [leur plainte] est “librement accordée”, surtout au début d’une affaire », « […] Je vais accorder la permission et répondre aux arguments des défenseurs contre les demandes et les plaignants [qui ont été] ajoutés », a estimé le juge, élargissant de ce fait l’affaire. Concernant Stable Diffusion, les artistes ont fait état d’une déclaration du PDG de Stability AI, Emad Mostaque (son fondateur), selon laquelle la société avait pris 100.000 Gigaoctets d’images et les a compressées dans un fichier de 2 Gigaoctets qui peut « recréer » n’importe quelle de ces images. La start-up créée il y a cinq ans a répondu que « l’usage “isolé” du mot “créer” par son PDG ne peut démontrer qu’il a eu pour but de favoriser l’infraction » et que « les plaignants ne contestent pas que Stable Diffusion est capable d’utilisations non violentes substantielles, comme la création d’œuvres à partir de données qui ne font pas référence à des artistes particuliers ou n’invoquent pas les styles d’artistes particuliers ou qui présentent une similitude substantielle avec les œuvres des [artistes] demandeurs ». Quoi qu’il en soit, le juge a estimé que « les allégations de violation induite sont suffisantes », renvoyant « à une date ultérieure » la question de savoir si c’est le résultat d’un problème technique (comme le prétend Stability AI) ou par dessein (argument des artistes). Concernant les éventuelles violations du DMCA, la loi américaine sur le droit d’auteur numérique, le juge William Orrick avait déjà rejeté en octobre 2023 ces accusations dans la mesure ou les plaignants n’avaient pas identifié le type exact de CMI (Copyright Management Information) inclus dans leurs œuvres numériques qui aient été en ligne et qu’ils croyaient de bonne foi avoir été « scraped » (comprenez « moissionnées » ou aspirées en ligne) dans la base de données LAION (4) ou autres « datasets » utilisés pour entraîner Stable Diffusion. « Il n’y a rien dans la plainte au sujet du texte CMI présent dans les images que les plaignants nommément nommés ont incluses avec leurs images en ligne et qu’ils affirment avoir été dépouillées ou modifiées en violation du DMCA pendant la formation de Stable Diffusion ou l’utilisation des produits finaux », avait constaté le juge. Les demandes d’indemnisation au titre de la violation supposée du DMCA ont donc été rejetées en août 2024 comme elles le furent en octobre 2023, tout comme sont écartées les accusations d’enrichissement sans cause.
Quant à la société Runway AI, l’accusée supplémentaire dans cette affaire, elle se voit reprochée d’avoir formé ou aidé à former au moins Stable Diffusion 1.5, en utilisant des images d’entraînement provenant de l’ensemble de données de LAION. « Comme pour Stability AI, puisque Runway AI ne conteste pas l’utilisation des images à des fins d’entraînement, je n’ai pas besoin de parler des autres théories de violation directe, a tenu à préciser le juge de Californie. Toutefois, je note que la théorie du modèle et la théorie de la distribution de l’atteinte directe dépendent de la question de savoir si les œuvres protégées des demandeurs sont contenues, d’une certaine façon, dans Stable Diffusion telle qu’elle est distribuée et exploitée. Le fait que ces œuvres puissent être contenues dans Stable Diffusion sous forme de représentations algorithmiques ou mathématiques – et soient donc fixées sur un support différent de celui dans lequel elles ont été produites initialement – n’est pas un obstacle à la revendication à ce stade ». En fin de discussion, le juge a tranché : « La requête de Runway visant à rejeter les demandes d’infraction directe est refusée. […]. La requête en rejet de Runway est refusée sur les demandes d’infraction, [mais] accordée à l’encontre des demandes du DMCA et accordée avec autorisation de modifier la demande d’enrichissement sans cause ».

Midjourney et les recours en vertu du DMCA
Midjourney soutient pour sa part – à l’égard de trois des artistes que sont Sarah Andersen, Julia Kaye et Gerald Brom – que la preuve de leur enregistrement d’oeuvres nouvellement identifiées et protégées par le droit d’auteur est insuffisante. Et ce, étant donné qu’un sous-ensemble des oeuvres d’artistes identifiées – comme étant à la fois protégées par le droit d’auteur et inclues dans les ensembles de données du LAION utilisés pour entraîner les produits d’IA – sont des compilations. Or, souligne le juge, « il est […] incontestable que chacun des [artistes], qui réclament que leurs œuvres protégées par le droit d’auteur ont été incluses dans les ensembles de données LAION, a au moins une œuvre dont l’enregistrement est valide ». Et d’ajouter plus loin : « L’identification de ces œuvres ne prouve peut-être pas la responsabilité en vertu DMCA, mais elle appuie la plausibilité des théories du demandeur au sujet DMCA ». Aussi : « A ce stade, les recours en vertu DMCA survivent contre Midjourney et les autres défendeurs ». @

Charles de Laubier

La cotation de Believe, la petite major de la musique numérique, est un échec malgré le streaming

Il n’y aura finalement pas de sortie de la Bourse pour Believe, dont l’assemblée générale des actionnaires est prévue le 26 juin 2024. Mais la cotation de la petite major française de la musique numérique est (pour l’instant) un échec. Son PDG fondateur Denis Ladegaillerie rachète 71,92 % du capital — voire plus.

C’est le grand paradoxe de Believe : le streaming musical a explosé sur les plateformes numériques, mais pas le cours de Bourse de la petite major de la musique enregistrée. Au niveau mondial, d’après la Fédération internationale de l’industrie phonographique (IFPI), la musique en streaming a généré l’an dernier un total de 19,3 milliards de dollars de revenus – soit une hausse de 10,2 % sur un an. Tandis que le chiffre d’affaires de Believe a grimpé de 15,7 % pour atteindre 880,3 millions d’euros (avec une perte nette ramenée à 2,7 millions au lieu de 25 millions l’année précédente). Pourtant, les investisseurs boursiers ne semblent pas croire en la société Believe qui a été introduite mi-2021 à la Bourse de Paris (Euronext) au prix de 19,50 par action.

Redevenir une licorne indépendante
Le cours avait chuté dès le premier jour pour ne jamais revenir à son niveau d’introduction (à part un pic à 20 euros en novembre 2021). Au 10 mai 2024, l’action ne dépasse pas les 15 euros et sa capitalisation boursière s’établit à 1,45 milliard de dollars (loin d’un peu plus de 1,7 milliard atteint en octobre 2021). Au lieu de lever 500 millions d’euros espéré pour assurer son développement, le PDG fondateur Denis Ladegaillerie (photo) avait dû faire avec seulement 300 millions d’euros. Cela n’a pas empêché la mini-major de s’internationaliser, en Allemagne (label Nuclear Blast et société de distribution Groove Attack), en Italie, en Turquie et dans certains pays d’Europe de l’Est, ainsi qu’en Asie, Océanie et Afrique.

En tant que licorne française (avant son entrée en Bourse) puis comme entreprise cotée, Believe a grossi notamment par acquisitions, une trentaine environ à ce jour : elles se sont succédées, à commencer par TuneCore (solutions automatisées pour les artistes) aux EtatsUnis en 2015, jusqu’à Sentric Music (plateforme indépendante d’édition musicale) au Royaume-Uni en 2023. Le rapport d’activité de l’entreprise cotée – publié fin mars 2024 – fait état d’un endettement d’environ 32 millions d’euros au 31 décembre 2023 mais d’une trésorerie nette de 182,3 millions d’euros. Il y a encore de la marge pour continuer à faire de la croissance externe et franchir bientôt la barre du milliard d’euros de chiffre d’affaires (1). Believe distribue sous licence ses musiques enregistrées sur les plateformes de streaming telles que Spotify, YouTube (Google), Apple Music, Amazon Music, Tencent Music ou encore Deezer, ainsi que sur les médias sociaux tels qu’Instagram (Meta) ou TikTok. Le rapport annuel 2023 précise par exemple les « volumes de contenus » livrés en 2023 à Spotify et Apple Music, soit un total d’environ 3,3 millions de contenus audio. Or le cours de Bourse ne suit pas. De quoi faire regretter à Denis Ladegaillerie de s’être laissé convaincre d’aller se faire coter en Bourse, alors qu’il y était initialement défavorable (2). Il comptait poursuivre son développement à l’international en refaisant de Believe une licorne (valorisée au moins 1 milliard d’euros mais non cotée), mais des actionnaires minoritaires en désaccord lui ont fait changer d’avis in extremis. A défaut de racheter 100 % du capital, le consortium Upbeat Bidco créé pour l’opération – composé de Denis Ladegaillerie et des fonds d’investissement suédois EQT et américain TCV – rachètera dans un premier temps 71,92 % du capital, conformément à un accord conclu le 11 février 2024 avec les actionnaires historiques de Believe : TCV, XAnge, Ventech et Denis Ladegaillerie.
« Le projet de retrait de la cote a été annulé. Si l’opération de rachat mené par le consortium va bien se faire, ils ont toutefois annoncé renoncer à retirer la société de la bourse. Believe reste donc coté », confirme à Edition Multimédi@ un porte-parole de Believe. L’OPA se fait au prix de 15 euros par action, soit bien en-deçà du prix d’introduction de mi-2021 – ce qui a fortement déçu les actionnaires minoritaires dont certains étaient opposés au retrait de la cote. La banque d’investissement américaine Stifel a estimé que Believe devrait être valorisé au moins 18,5 euros par action.
Le consortium Upbeat Bidco, qui pourrait franchir les 90 % du capital sans sortie de Bourse (3), souhaite « accélérer le développement international » de Believe, « tout en continuant de développer la spécificité de son modèle unique, au service des artistes et des labels indépendants » (4). La petite major de la musique, qui compte aujourd’hui près de 2.000 salariés (1 919 précisément) dans plus de 50 pays, garde ainsi son indépendance face au triopole mondial constitué de Universal Music, Sony Music et Warner Music.

Believe a échappé à Warner Music
Après Sony Music qui avait voulu en 2017 s’emparer en vain de Believe, ce fut au tour de Warner Music de finalement annoncer le 6 avril dernier (5) son renoncement à faire une offre à 17 euros par action sur cette même pépite de la musique numérique. Cette acquisition par Warner Music aurait valorisé Believe 1,65 milliard d’euros, mais elle lui aurait fait perdre son indépendance. Ce qui n’a pas manqué d’inquiéter de nombreux artistes, labels et producteurs indépendants, d’autant que Warner Music avait annoncé en février dernier 600 suppressions d’emploi. L’Union des producteurs phonographiques français indépendants (UPFI) a même parlé fin mars de « conséquences destructrices d’un éventuel rachat par Warner Music ». @

Charles de Laubier

Le cinéma XR aux Festivals de Cannes et d’Annecy

En fait. Du 14 au 25 mai 2024 pour le Festival de Cannes et du 9 au 15 juin pour le Festival d’Annecy, les œuvres immersives sont en compétition. Sur la Croisette, c’est la première édition de la « Compétition immersive ». En Haute-Savoie, des œuvres XR sont à nouveau présentées. Le cinéma se réinvente.

En clair. Il se passe quelque chose dans l’industrie du cinéma. Les œuvres immersives se multiplient et certaines d’entre elles ont été sélectionnées pour être en compétition et espérer être consacrées par les jurys des festivals du 7e Art. De quoi aussi bousculer les convenances cinématographiques. Pour la première fois, au Festival de Cannes, les organisateurs leur déroulent le tapis rouge avec une nouveauté cette année : la «Compétition immersive » du 15 au 24 mai. Seront ainsi présentés huit projets en lice, dont les œuvres numériques sont « des installations de réalité virtuelle collectives, des expériences de réalité mixte, ainsi que des œuvres de vidéo mapping et holographiques ». Premier du genre : le Prix de la Meilleure Œuvre immersive sera remis à Cannes le 23 mai lors d’une cérémonie de clôture (1).

La « Compétition immersive » du 77e Festival de Cannes est une nouvelle compétition dédiée aux œuvres immersives, dont c’est la première édition cette année. Sur la Croisette, sont sélectionnées les œuvres « En Amour », « Evolver », « Human Violins », « Maya », « Noire » (« Colored »), « Telos I », « The Roaming » et « Traversing the Mist », tandis que six autres plus exploratoires ne sont pas en compétition (2). Cette avantgarde artistique « défiant les conventions établies » (dixit le Festival de Cannes) se retrouve également au 64e Festival international du film d’animation, qui se tient, lui, à Annecy (HauteSavoie) du 9 juin au 15 juin prochains. Cela fait huit ans que des œuvres VR y sont présentées et cinq ans qu’une compétition leur est dédiée. Cette année, dix œuvres immersives sont présentes dans la sélection officielle (sur un record de plus d’une centaine de projets reçus) : « Flow », « Gargoyle Doyle », « Mamie Lou », « My Inner Ear Quartet », « Oto’s Planet », « Spots of Light », « Tu vivras, mon fils », « The Imaginary Friend », « Empereur » et « Le Temps du monstre » (3). A noter que pour la première fois au Mifa (marché international du film d’animation d’Annecy) des jeux vidéo seront de la partie aux côtés des œuvres XR (4).
Rappelons que le Centre national du cinéma et de l’image animée (CNC) a créé en juillet 2022 le Fonds d’aide à la création immersive, qui remplacé les fonds numérique XN et multimédia Dicréam. La commission « création immersive » est, elle, présidée par le musicien Jean-Michel Jarre (5). @

IA génératives, contrefaçons, exceptions au droit d’auteur et opt out : où se situent les limites ?

Adopté par les eurodéputés le 13 mars 2024, l’AI Act – approuvé par les Etats membres en décembre 2023 – va être définitivement voté en plénière par le Parlement européen. Mais des questions demeurent, notamment sur les limites du droit d’auteur face aux intelligences artificielles génératives.

Par Vanessa Bouchara, avocate associée, et Claire Benassar, avocate collaboratrice, Bouchara & Avocats.

Si l’utilisation des intelligences artificielles (1) est désormais largement répandue, ces techniques et technologies capables de simuler l’intelligence humaine restent au cœur de nombreux questionnements – tant éthiques que juridiques. Alors même que le projet de règlement européen visant à encadrer l’usage et la commercialisation des intelligences artificielles au sein de l’Union européenne, dit AI Act (2), a été adopté en première lecture le 13 mars 2024 par le Parlement européen (3), c’est l’intelligence artificielle générative – IAg, AIG ou GenAI – qui est aujourd’hui sujette à controverse.

Droit d’auteur et procès en contrefaçon
A l’origine du débat les concernant, il importe de rappeler que les systèmes d’IAg ont pour particularité de générer du contenu (textes, images, vidéos, musiques, graphiques, etc.) sur la base, d’une part, des informations directement renseignées dans l’outil par son utilisateur, et, d’autre part et surtout, des données absorbées en amont par l’outil pour enrichir et entraîner son système. Les systèmes d’intelligence artificielle générative sont ainsi accusés d’être à l’origine d’actes de contrefaçon, et pour cause : l’ensemble des données entrantes dont ils se nourrissent peuvent potentiellement être protégées par des droits de propriété intellectuelle. Où se situe donc la limite entre l’utilisation licite de ces données et la caractérisation d’un acte de contrefaçon ? Si, par principe, la reproduction de telles données est interdite, le droit européen semble désormais entrouvrir la possibilité d’utiliser celles-ci dans le seul cadre de l’apprentissage de l’IAg.

L’interdiction de reproduction de données protégées par le droit d’auteur. L’auteur d’une œuvre de l’esprit (4) jouit sur cette œuvre, du seul fait de sa création, de l’ensemble des droits conférés aux auteurs par le Code de la propriété intellectuelle (CPI). A ce titre, l’auteur d’une œuvre peut notamment s’opposer à toute reproduction de celle-ci, c’est-à-dire à toute fixation matérielle quelle qu’elle soit de son œuvre par tous procédés qui permettent de la communiquer au public d’une manière indirecte. Si l’IAg utilise en grande partie des données publiques, se pose tout de même la question de l’utilisation de ces données lorsqu’elles constituent de telles œuvres de l’esprit bénéficiant de la protection offerte par le droit d’auteur. La collecte et l’intégration de telles données dans les outils d’intelligence artificielle constituent-ils toutefois de tels actes de reproduction ? Eu égard à la définition très large du droit de reproduction, il semblerait qu’il faille répondre à cette question par la positive. En effet, la définition qui en est donnée par le législateur incite à considérer qu’en principe, tout acte de reproduction d’une œuvre doit faire l’objet d’une autorisation préalable de son auteur.
Aussi, en l’absence d’autorisation de la part de leurs auteurs, l’intégration des données d’apprentissage protégées par le droit d’auteur dans l’outil d’IAg pourrait aisément matérialiser un acte de contrefaçon par reproduction. C’est d’ailleurs à ce titre que plusieurs procédures sont en cours aux Etats-Unis. Plusieurs recours collectifs ont dernièrement été déposés en 2023 contre OpenAI et Microsoft, notamment par un regroupement d’écrivains américains – soutenus par la Authors Guild (5) – qui soutiennent que l’algorithme entraînant le robot ChatGPT manie leurs œuvres en violation de leurs droits d’auteur. Le New York Times a lui aussi porté plainte contre OpenAI et Microsoft (6). Il en est de même pour la banque d’images Getty Images qui accuse l’outil Stable Diffusion, développé par Stability AI, de violer ses droits d’auteur. Les procès se multiplient contre les IAg. Si la législation applicable est toute autre aux Etats-Unis, il nous semble toutefois que le dénouement des litiges en cours puisse potentiellement nous aiguiller sur le possible positionnement des juges français.

Exceptions, citations, extraits, …
Intelligence artificielle générative, fair use et exception de courte citation. Si les défendeurs outre Atlantique excipent généralement du concept de fair use, lequel permet l’utilisation loyale d’une œuvre par un tiers, les exceptions au droit d’auteur en France sont strictement délimitées et encadrées par les dispositions du CPI. Aussi, si les droits conférés aux auteurs d’une œuvre de l’esprit sont particulièrement étendus, le législateur les a de longue date assortis d’une liste exhaustive conséquente d’exceptions venant faire obstacle aux droits d’auteur. Parmi celles-ci, à défaut de fair use, certains entendent ainsi défendre l’IAg sur la base de l’exception de courte citation, permettant à tout tiers d’exploiter de courts extraits de l’œuvre dans la mesure où cette exploitation serait notamment justifiée par le caractère pédagogique, scientifique ou d’information de l’œuvre à laquelle elles sont incorporées. Seulement, encore faut-il que le tiers invoquant cette exception indique clairement le nom de l’auteur et la source. Ce que les outils d’IAg ne font pas, et ne peuvent pas faire eu égard à la masse de données sur laquelle se fonde leur entraînement, et surtout au regard du recoupement de l’ensemble de ces informations, lequel rend presque impossible de sourcer chacun des auteurs dont les œuvres sont utilisées.

Fouille de textes et de données limitée
L’évolution des techniques utilisées rend ainsi indispensable l’évolution du droit actuel et de la jurisprudence qui en découlera.
La limitation du droit d’auteur pour la fouille de textes et de données. Sans même anticiper l’arrivée fulgurante de l’intelligence artificielle au début des années 2020, le législateur européen est venu introduire en 2019 – via la directive « Droit d’auteur dans le marché unique numérique » (7) – une nouvelle exception au droit d’auteur en autorisant la fouille de textes et de données (« text and data mining » ou TDM), laquelle trouve ainsi à s’appliquer lorsque les reproductions d’œuvres réalisées ne remplissent pas toutes les conditions de l’exception pour les actes de reproduction provisoires. Seulement, les défenseurs de l’IAg se sont engouffrés dans cette brèche et ont entendu appliquer cette exception à la collecte et à la reproduction des données disponibles en ligne par les systèmes d’intelligence artificielle, afin de légitimer leur utilisation par ces derniers.
C’est ainsi, dans cette logique, que l’AI Act s’approprie le texte de 2019 et applique l’exception aux fins de fouille de textes et de données aux outils d’IAg. Néanmoins, exception à l’exception, le texte prévoit que tout auteur peut anticiper l’utilisation de ses œuvres par l’IA et s’opposer à cette exploitation en l’indiquant par tout moyen (droit de retrait ou opt out), auquel cas l’exception de « text and data mining » ne trouvera plus à s’appliquer. En pareille hypothèse, les systèmes d’IA seront ainsi à nouveau soumis l’obligation d’obtenir l’autorisation expresse de l’auteur afin de procéder à l’exploration de textes et de données sur ses œuvres de façon licite. Pour autant, le considérant 105 de l’AI Act, précise que les détenteurs de droits peuvent choisir de réserver leurs droits sur leurs œuvres ou autres objets pour empêcher l’exploration de texte et de données, « sauf si cela est fait à des fins de recherche scientifique ». Et dans l’article 2 du même AI Act, le sixième point prévoir que « le présent règlement ne s’applique pas aux systèmes d’IA ou aux modèles d’IA, y compris leur production, spécifiquement développés et mis en service aux seules fins de la recherche et du développement scientifiques ».
Nous nous interrogeons toutefois sur la pertinence de ce système d’« opt out » proposé aux auteurs, dans la mesure où il apparaît difficile – voire impossible – de contrôler son respect par les outils d’IA. En effet, comment un auteur peut-il contrôler que son œuvre n’est pas utilisée pour entraîner une intelligence artificielle ? A charge pour l’AI Office – le Bureau européen de l’IA créé par l’AI Act (8) – de rendre public un « résumé des contenus utilisées pour l’entraînement » de chaque IA à usage général (considérants 107 et 108 de l’AI Act, et articles 53d et 56b).
En dépit de sa volonté protectrice, et alors même qu’il n’est pas entré en vigueur, l’AI Act semble donc d’ores et déjà confronté aux difficultés inhérentes aux avancées techniques issues de l’intelligence artificielle.
Contenu généré par l’IAg et contrefaçon. Cela étant, quand bien même la fouille de données est autorisée en vertu du droit européen, cette exception reste cantonnée au seul entraînement des systèmes d’IA, et ne permet pas pour autant à l’outil de générer en fin de processus des données contrefaisantes. Aussi, dans la mesure où les données générées reproduiraient à tout le moins en partie les caractéristiques originales des données d’entraînement, elles ne pourront pas être exploitées sans l’autorisation préalable des auteurs des données d’entraînement, sauf à caractériser un acte de contrefaçon. En effet, il n’est en pratique jamais exclu que l’on puisse reconnaître tout ou partie des éléments issus des données entrantes, et il apparaît ainsi en théorie probable que des contrefaçons par imitation puissent être caractérisées. Néanmoins, dans quelle mesure l’utilisateur de l’IAg sera-t-il averti que la donnée générée contrefait une œuvre antérieure ?

Quid de la rémunération des contenus ?
S’il existe nécessairement une limite au-delà de laquelle les tribunaux pencheront en faveur de la contrefaçon, il est fort à parier que les utilisateurs des outils d’IAg la franchiront bien avant les développeurs à l’origine de ces outils. Les interrogations restent en tout cas nombreuses, comme en témoignent les deux missions lancées en France le 12 avril dernier par le Conseil supérieur de la propriété littéraire et artistique (CSPLA), d’une part sur la rémunération des contenus culturels utilisés par les IA (9) et d’autre part sur la mise en œuvre de l’AI Act (10). @

Les enjeux du droit d’auteur à l’ère de l’intelligence artificielle (IA) : entre exceptions et interprétations

La propriété intellectuelle est entrée dans une zone de turbulences provoquées par les IA génératives. L’utilisation d’œuvres reste soumise à l’autorisation des auteurs, mais le droit d’auteur est limité dans certains cas comme la fouille de textes et de données. L’AI Act sera à interpréter.

Par Jade Griffaton et Emma Hanoun, avocates, DJS Avocats*

La récente législation européenne sur l’intelligence artificielle (IA) – l’AI Act dans sa dernière version de compromis final datée du 26 janvier 2024 (1) (*) (**) – adopte une définition flexible de « système d’IA », désigné comme « un système basé sur des machines conçues pour fonctionner avec différents niveaux d’autonomie et d’adaptabilité après leur déploiement et qui, à partir des données qu’il reçoit, génère des résultats tels que des prédictions, du contenu, des recommandations ou des décisions pouvant influencer des environnements physiques ou virtuels » (2).

Exception de « fouille de textes et de données »
La question de la relation entre le droit de la propriété littéraire et artistique et l’IA est une préoccupation ancienne. Lors de la phase d’entraînement, le système d’IA reçoit des données. A ce stade, se pose la question de l’intégration de contenus protégés par le droit d’auteur aux fins du développement du système. Lors de la phase de génération, le système d’IA génère des résultats, voire des créations, à la demande de l’humain. Se pose alors la question de l’encadrement juridique de ces créations générées, en tout ou partie, par un système d’IA. Ces problématiques juridiques actuelles doivent être envisagées à la lumière des nouveaux textes destinés à réguler le domaine de l’IA, et notamment la récente proposition de règlement européen sur l’IA, et la proposition de loi française visant à encadrer l’utilisation de l’IA par le droit d’auteur (3).
De nouveaux contours de la possibilité d’utiliser des œuvres pour entraîner l’IA ? Les systèmes d’IA ont besoin, au stade de leur apprentissage et développement, d’avoir accès à de grands volumes de textes, images, vidéos et autres données. Ces contenus sont susceptibles d’être protégés par le droit d’auteur. L’objectif principal du règlement IA, dévoilé en 2021 par la Commission européenne, consiste à réguler les systèmes d’IA introduits sur le marché européen, en adoptant une approche axée sur les risques et en assurant un niveau élevé de protection des droits fondamentaux, de la santé publique, de la sécurité et de l’environnement.

Ainsi, l’AI Act n’a pas vocation à traiter les questions relatives au droit d’auteur. Et pourtant, il n’ignore pas totalement leur importance en présence d’un système d’IA. A ce propos, le règlement renvoie à une exception – au principe d’obtention d’une autorisation de l’auteur pour toute utilisation de son œuvre – issue du droit de l’Union européenne (UE), celle de la fouille de textes et de données (text and data mining ou TDM). Cette exception – non spécifique aux systèmes d’IA – permet, semble-t-il, de justifier juridiquement l’utilisation de contenus protégés par le droit d’auteur en dispensant les opérateurs d’IA d’obtenir l’autorisation des auteurs qui ne se sont pas opposés expressément. Elle n’est pas nouvelle. C’est la directive européenne « Droit d’auteur et les droits voisins dans le marché unique numérique » de 2019 (4) qui a voulu rendre obligatoire pour les Etats membres de prévoir une exception aux droits de reproduction d’une œuvre et d’extraction d’une base de données, à des fins d’utilisation de technologies de fouille de textes et de données – technologies qui permettent une analyse informatique automatisée de textes, sons, images ou données sous forme numérique, en grande quantité, en vue d’acquérir de nouvelles connaissances. En y faisant ce renvoi, la proposition de règlement confirme, semble-t-il, que cette exception s’applique aux systèmes d’IA mais n’apporte aucune nouveauté en la matière. La proposition de loi française – dont l’objet même est, contrairement à la proposition européenne, d’encadrer l’IA par le droit d’auteur – envisage d’incorporer dans le code de propriété intellectuelle (CPI), au sein de l’article L.131-3, un alinéa prévoyant que l’intégration d’œuvres protégées par le droit d’auteur dans le système d’IA est soumise « à une autorisation par les auteurs ». Une telle formulation – « L’intégration par un logiciel d’intelligence artificielle d’œuvres de l’esprit protégées par le droit d’auteur dans son système et a fortiori leur exploitation est soumise aux dispositions générales du présent code et donc à autorisation des auteurs ou ayants droit » (5) – pourrait recevoir diverses interprétations.

Question de l’« autorisation des auteurs »
L’intégration des œuvres dans un système d’IA est un nouveau mode d’exploitation que la proposition semble avoir voulu prendre en compte. Doit-on comprendre que l’intégration dans une IA est une forme de reproduction de l’œuvre à laquelle s’applique, comme pour toutes formes de reproduction, l’exception de fouilles de textes et de données ? Dans ce cas, le régime actuel est inchangé : donc, les développeurs d’IA peuvent encore intégrer des œuvres à la phase d’entraînement, sauf opposition des auteurs. Doit-on plutôt comprendre que cette formulation veut rompre avec le régime actuel en consacrant expressément une exigence d’obtention d’autorisation de auteurs en écartant l’exception de fouilles de textes et de données ? Dans ce cas, le nombre d’œuvres pouvant être intégrées dans les systèmes d’IA serait réduit à celles dont une autorisation a été donnée, et non celles ne faisant pas l’objet d’opposition. La première interprétation semble la plus appropriée, notamment eu égard à la formulation de l’alinéa précisant que « [l’intégration] est soumise aux dispositions générales du présent code et donc à autorisation des auteurs », et à sa place dans le CPI (6).

Pays de « common law » et pays de « civil law »
Nouvelle exigence de transparence lorsque des œuvres sont utilisées par l’IA. La proposition AI Act, bien qu’elle n’ait pas vocation à traiter de la question du droit d’auteur, exige des fournisseurs de systèmes d’IA une certaine transparence lorsque des contenus protégés par un droit d’auteur ont été utilisés au stade du développement dudit système. En effet, le texte contraint les fournisseurs de modèles d’IA à finalité générale (« general purpose IA models ») à mettre en place une politique pour respecter le droit d’auteur de l’UE, et à rendre public un résumé suffisamment détaillé du contenu utilisé pour entraîner le modèle d’IA à finalité générale (7). La mise en place de la politique aurait pour objectif d’identifier et respecter les réservations de droits – ou oppositions – au titre de l’exception de fouilles de textes et de données.
La publication du résumé suffisamment détaillé devrait se faire à partir d’un modèle publié par l’Office de l’intelligence artificiel (OIA, ou AI Office), organe instauré par la proposition de législation. Il aurait pour objet – sans être techniquement détaillé – « par exemple d’énumérer les principales collections ou ensembles de données qui ont servi à la formation du modèle, tels que les grandes bases de données privées ou publiques ou les archives de données, et en fournissant une explication narrative sur les autres sources de données utilisées » (8). De telles exigences en termes de transparence témoignent de la prise en compte des exigences posées par le droit d’auteur. D’autant que le règlement IA prévoit que les obligations de transparences ne s’appliquent pas aux fournisseurs de systèmes d’IA rendant accessibles au public, sous licence libre ou ouverte, les modèles d’IA (9) sauf celles liées au droit d’auteur. Sortir les exigences de transparence liées au droit d’auteur de l’exception générale témoigne encore de leur importance.
Vers une remise en cause de la non-« protégeabilité » des créations issues d’un système d’IA ? Alors que les pays de « common law » comme le Royaume Uni et les Etats-Unis admettent la « protégeabilité » des œuvres générées par des machines (10) – notamment parce que l’œuvre est placée au centre et les auteurs obtiennent une protection indirecte à travers la protection directe de la propriété créée –, les pays de « civil law » ont tendance à refuser qu’une œuvre au sens juridique du terme puisse être créée par une machine dès lors que la protection est attachée directement à la personne de l’auteur. Traditionnellement, l’originalité s’entend en droit français et européen de l’empreinte de la personnalité de l’auteur en manifestant ses choix libres et créatifs (11). Une telle conception exclut a priori toute originalité d’une œuvre conçue par une IA du fait du défaut de personnalité de l’IA. Si, le règlement IA ne traite pas de la question de la « protégeabilité » des « créations » générées par l’IA, la proposition de loi française, a contrario, tente de plonger au cœur du sujet. Elle envisage d’intégrer au sein de l’article L.321-2 du CPI le cas précis d’une « œuvre créée par une intelligence artificielle sans intervention humaine directe » (12). Par cette disposition, le droit français semble admettre qu’une œuvre puisse être créée par une machine, et non un être humain. Dans ce cas, la proposition de loi désigne comme titulaires des droits, non pas les personnes ayant développé le système ou ayant commandé la création à la machine, mais les auteurs des œuvres intégrées au système d’IA lors de la phase d’entraînement.
L’œuvre serait-elle alors empreinte de la personnalité des auteurs des œuvres premières ayant servi à entraîner le système d’IA ? Ces auteurs seraient à la fois titulaires de droits sur leur œuvre première – sans difficulté – et de droits sur les œuvres générées par l’IA lorsque leur œuvre première aurait été exploitée au stade de développement de l’IA. La problématique qui se pose d’emblée en pratique est celle de la multitude de titulaires d’une œuvre générée par un système d’IA. La proposition de loi envisage alors que les droits soient gérés par des organismes de gestion collective (comme la Scam ou la Sacem) qui percevront la rémunération ou une taxation versée par la société qui exploite le système d’IA lorsque l’œuvre est engendrée par l’intégration d’œuvres dont l’origine ne peut être déterminée. La proposition de loi exige aussi que soit apposée la mention « Œuvre générée par IA » et inséré le nom des auteurs des œuvres premières.

Protection des œuvres générées par l’IA
En revanche, la protection accordée aux œuvres générées par l’IA ne semble pas aussi complète que celle accordée aux œuvres « classiques » : la proposition de loi française ne traite pas plus du droit moral ni des autres droits patrimoniaux que de celui de la rémunération juste et équitable des auteurs. Peut-être que cela s’explique par l’ambition de la proposition de loi « Encadrer l’intelligence artificielle par le droit d’auteur » de garantir une rémunération juste et équitable de l’exploitation des œuvres et de garantir une traçabilité des auteurs et artistes. Il reste à voir comment seront appréhendées en pratique de telles évolutions juridiques. @

* Article écrit avec la collaboration
de Camille Rodriguez, DJS Avocats