Premier jugement historique en Europe condamnant OpenAI pour atteinte au droit d’auteur

Même si ce jugement historique du 11 novembre 2025 – prononcé par le tribunal de Munich contre de l’éditeur américain de ChatGPT accusé de contrefaçon musicale – est provisoire (OpenAI ayant fait appel), il sonne comme un avertissement planétaire à toutes les sociétés d’IA génératives.

Tobias Holzmüller (photo), le PDG de la Gema, qui est en Allemagne ce que la Sacem est en France, peut être fier du verdict historique obtenu en première instance du tribunal régional de Munich le 11 novembre 2025 : la manière dont OpenAI gère actuellement ChatGPT viole les lois européennes applicables sur le droit d’auteur. « Pour la première fois en Europe, l’argument en faveur de l’utilisation par les systèmes d’IA générative d’œuvres protégées par le droit d’auteur a été examiné juridiquement et statué en faveur des créateurs des œuvres », s’est félicitée la Société pour les droits d’exécution musicale et de reproduction mécanique (Gema).

Copyright : Internet n’est pas open bar
Cette décision judiciaire allemande – première de ce type dans l’Union européenne (UE) et au retentissement mondial – a clairement jugé que la licorne américaine OpenAI aurait dû acquérir les droits sur les paroles des paroliers et auteurs-compositeurs du répertoire de la Gema, avant de les utiliser pour entraîner ses modèles d’IA et de les exploiter avec son chatbot ChatGPT. De telles reproductions sans autorisations constituent aux yeux du tribunal de Munich des violations du droit d’auteur, et pour lesquelles OpenAI aurait dû obtenir une licence qui offre aux titulaires des droits une rémunération appropriée.
C’est la première fois dans l’UE qu’une décision clarifie aujourd’hui des questions juridiques-clés concernant la manière dont les nouvelles technologies interagissent avec le copyright européen. « Internet n’est pas une sorte de buffet en libre-service, et les réalisations créatives des êtres humains ne sont pas simplement des modèles à utiliser gratuitement. Aujourd’hui, nous avons établi un précédent qui protège et clarifie les droits des détenteurs de droits d’auteur créatifs : les opérateurs d’outils d’IA tels que ChatGPT doivent (suite) également se conformer à la loi sur le droit d’auteur. Aujourd’hui, nous avons défendu avec succès les moyens de subsistance des créateurs de musique », a déclaré Tobias Holzmüller. Et ce n’est pas faute pour la Gema de ne pas proposer un modèle de licence développé spécifiquement pour les fournisseurs de systèmes d’IA. Depuis septembre 2024, la « Sacem » allemande (basée à Berlin) propose ce type de licence IA comme « base juridique sûre » pour utiliser la musique afin de faire fonctionner et d’entraîner les modèles d’IA, « en garantissant que les créateurs de musique soient équitablement rémunérés, de manière à continuer d’encourager l’innovation musicale ». Or, jusqu’à présent, la Gema constate qu’OpenAI a montré « une réticence générale » à suivre tout modèle de licence quel qu’il soit. L’organisation berlinoise, qui lance ainsi un avertissement à toutes les sociétés d’IA dans le monde, a par ailleurs déposé plainte contre une autre entreprise américaine, Suno, qui, elle, fournit des contenus audios générés par une IA entraînée sur des enregistrements originaux d’œuvres du répertoire de la Gema. L’audience devrait avoir lieu le 26 janvier 2026. A noter que par ailleurs Suno a annoncé le 25 novembre 2025 un accord avec Warner Music (1). « La décision du tribunal régional de Munich montre que la manière dont les systèmes d’IA fonctionnent porte systématiquement atteinte aux droits des auteurs. Il y a un besoin urgent d’agir ici. Le modèle de licence de la Gema propose une solution, mais le cadre juridique doit également être amélioré en faveur des artistes créatifs, afin que l’acquisition des licences par les entreprises devienne la règle. Nous continuerons à travailler vers cet objectif », a prévenu Kai Welp, le directeur juridique de la société allemande de gestion collective des musiciens (2).
La justice allemande a clairement indiqué qu’OpenAI n’est pas une organisation de recherche bénéficiant de privilèges et que l’autorisation légale de ce que l’on appelle l’exploration de texte et de données – Text and Data Mining (TDM) – ne justifie en aucun cas le stockage et la production de paroles de chansons protégées par le droit d’auteur. Or la Gema a pu démontrer que ChatGPT reproduit des paroles protégées par le droit d’auteur, en réponse à de simples prompts. Le tribunal munichois a confirmé que cette utilisation suppose une obligation de délivrance de licences.

OpenAI Ireland Ltd et OpenAI LLC
Le groupe OpenAI a donc été condamné pour violation du droit d’auteur. La Gema représente les droits d’auteur détenus par plus de 100.000 membres – compositeurs, paroliers et éditeurs de musique – et plus de 2 millions de détenteurs de droits de propriété intellectuelle dans le monde. C’est l’une des plus grandes sociétés de gestion collective des droits d’auteur dans l’industrie musicale. La 42e chambre civile du tribunal régional de Munich lui a donné raison en confirmant l’essentiel de ses demandes de mesures injonctives, d’informations et de dommages-intérêts, contre deux sociétés du groupe OpenAI : la filiale européenne opératrice du chatbot ChatGPT, OpenAI Ireland Ltd (à Dublin), et la maison mère américaine – du moins l’entité commerciale à but lucratif OpenAI LLC (3) – basée en Californie (à San Francisco). La Gema a porté plainte contre ces deux sociétés du groupe d’IA génératives pour avoir mémorisé les paroles de la chanson dans des grands modèles de langage (LLM), permettant ainsi à ChatGPT de donner des réponses aux utilisateurs en grande partie fidèles aux paroles originales.

Pas de Text and Data Mining (TDM)
Les accusations de la Gema à l’encontre de la firme de Sam Altman (photo ci-contre) pour contrefaçon portent sur les paroles de neuf auteurs allemands célèbres : « Atemlos » de Kristina Bach, « 36 Grad » de Thomas Eckart, Inga Humpe, Peter Plate et Ulf Leo Sommer, « Bochum » et « Männer » de Herbert Grönemeyer, « Über den Wolken » de Reinhard Mey, « June » de Jan Vetter ainsi que « Es schneit », « In der Weihnachtsbäckerei » et « Wie schön, dass du geboren bist » de Rolf Zuckowski. OpenAI avait contesté les affirmations de la Gema, en prétendant qu’au contraire ses « modèles linguistiques » ne sauvegardaient pas ou ne copiaient pas de données d’entraînement spécifiques, mais reflétaient dans leurs paramètres ce qu’ils auraient appris sur la base de l’ensemble des données d’entraînement.
L’éditeur de ChatGPT estimait que les réponses du chatbot ne seraient générées qu’à la suite de saisies d’utilisateurs (prompts), et que par conséquence ce n’était pas OpenAI mais l’utilisateur en tant que producteur de la sortie qui serait responsable de celles-ci. De plus, dans tous les cas, OpenAI a invoqué les limites au droit d’auteur, en particulier l’exception pour ce que l’on appelle la fouille de textes et de données (TDM). Le jury allemand ne l’a pas entendu de cette oreille, et a décidé que « la mémorisation dans les modèles de langage et la reproduction des paroles des chansons dans les sorties du chatbot empiètent sur les droits d’exploitation du droit d’auteur. Celles-ci ne sont pas couvertes par les dispositions de restriction, en particulier la limitation de l’exploration de texte et de données ». Selon la 42e chambre civile, les paroles de la chanson en question étaient « reproductiblement » contenues dans les modèles linguistiques 4 (GPT 4) et 4o (GPT4Turbo) d’OpenAI. En effet, les données d’entraînement d’IA peuvent être contenues dans des modèles de langage et extraites en tant que résultats. C’est ce qu’on appelle la « mémorisation ». Une telle situation existe si les modèles de langage non seulement prennent des informations de l’ensemble de données d’entraînement pendant l’entraînement, mais trouvent également un transfert complet des données d’entraînement dans les paramètres spécifiés après l’entraînement. « Cette mémorisation a été établie en comparant les paroles des chansons contenues dans les données d’entraînement avec les reproductions dans les sorties. Compte tenu de la complexité et de la longueur des paroles, la coïncidence a été écartée comme cause de la reproduction des paroles. La mémorisation donnait une incarnation, comme condition préalable à la reproduction par droit d’auteur, des paroles contestées par des données dans les paramètres spécifiés du modèle. Les paroles des chansons en question étaient  »reproductiblement » définies dans les modèles », a expliqué le tribunal régional de Munich dans une communication (4) émise le 11 novembre 2025 dans la foulée du rendu de sa décision. A l’appui de son jugement, le jury s’est appuyé sur la directive européenne « Droit d’auteur et des droits voisins dans la société de l’information » de 2001 – ou DADVSI (5), parfois appelée « InfoSoc » – où il est précisé « par quelque moyen et sous quelque forme que ce soit » lorsqu’il est question de « reproduction directe ou indirecte, provisoire ou permanente » (6). Ce que l’Allemagne a, elle, transposé dans sa législation nationale dans sa loi sur le droit d’auteur dite « UrhG » (7). Aussi, selon la jurisprudence de la Cour de justice de l’Union européenne (CJUE), « une perceptibilité indirecte suffit à caractériser une reproduction dès lors que l’œuvre peut être perçue au moyen d’un dispositif technique ».
Et le tribunal insiste sur le fait que cette reproduction dans les modèles d’IA n’est pas couverte par les dispositions de limitation de l’exploration de texte et de données (TDM). Selon lui, la formation des IA extrait non seulement des informations des données d’entraînement, mais reproduit également des œuvres, ce qui ne constitue pas du TDM. « Le principe de l’exploration de texte et de données – ainsi que les dispositions de limitation associées selon lesquelles aucun intérêt d’exploitation n’est affecté par l’évaluation automatisée de la simple information elle-même – ne s’applique pas à [OpenAI]. Au contraire, les reproductions données dans le modèle empiètent sur le droit d’exploitation des titulaires de droits. […] Dans le cas des reproductions du modèle, l’exploitation de l’œuvre est définitivement compromise et les intérêts légitimes des titulaires des droits en sont violés », développe la décision judicaire.

En France, SACD et Scam réjouies
Autant l’homologue française de la Gema – la Société des auteurs, compositeurs et éditeurs de musique (Sacem) – n’a pas publié de communiqué sur cette première victoire européenne, autant la Société des auteurs et compositeurs dramatiques (SACD) et la Société civile des auteurs multimédia (Scam) ont fait communiqué commun (8) le 14 novembre 2025 pour se réjouir de cette décision historique et se dire « prêtes à négocier » des licences : « Cette décision crée un précédent essentiel que les services d’IA, qu’ils s’agissent des licornes européennes ou des multinationales américaines ou chinoises, ne peuvent ignorer : l’innovation ne peut se faire au détriment des créateurs et au mépris de leurs droits ». @

Charles de Laubier

Comment les IA génératives doivent assurer la rémunération des auteurs et des ayants droit

En mai, l’US Copyright Office aux Etats-Unis, l’EUIPO en Europe et le CSPLA en France ont chacun publié un rapport où est abordée la manière de rémunérer les auteurs lorsque leur création est utilisée par les IA génératives : licences légales obligatoire, gestion collective, place de marché, …

Les ChatGPT, Claude, Perplexity, Meta Ai et bien d’autres intelligences génératives vont devoir mettre la main au portefeuille pour rémunérer équitablement les auteurs et les créateurs lorsqu’elles utilisent leurs œuvres. Trois organismes ont chacun publié leur rapport dans le courant du mois de mai 2025 : l’US Copyright Office (USCO) aux Etats-Unis le 9 mai, l’Office de l’Union européenne pour la propriété intellectuelle (EUIPO) en Europe le 12 mai et le Conseil supérieur de la propriété littéraire et artistique (CSPLA) en France le 16 mai.

Du fair use aux accords de licences
La question commune à ces trois rapports est de savoir comment les IA génératives doivent rémunérer les ayants droit. L’USCO, rattaché au Congrès américain, estime dans les conclusions de son rapport – intitulé « Copyright and Artificial Intelligence, Part 3: Generative AI Training » (1) – que la doctrine du fair use propre aux Etats-Unis – qui consacre un « usage raisonnable » sans devoir de rétribution ni autorisation des ayants droit – « peut jouer un rôle ». Mais cette « tolérance » a ses limites. « L’exploitation commerciale de vastes corpus d’œuvres protégées dans le but de générer du contenu expressif susceptible d’entrer en concurrence sur les marchés existants, notamment lorsqu’elle repose sur un accès illégal aux œuvres, dépasse les limites du fair use », considère le Copyright Office américain.
Et de constater, sans pour autant donner d’exemples chiffrés, que « des accords de licence pour l’entraînement de l’IA – individuels comme collectifs – sont en train d’émerger rapidement dans certains secteurs, bien que leur disponibilité demeure encore inégale ». Pour autant, il estime (suite) qu’« une intervention gouvernementale serait prématurée à ce stade », et qu’il faut « laisser les marchés de la licence continuer à se développer ». L’USCO rappelle qu’il est historiquement montré prudent à l’égard des licences légales obligatoires (compulsory licenses) qui, selon lui, doivent rester exceptionnelles et mises en œuvre qu’en cas de défaillance manifeste du marché. Reste que le rapport du Copyright Office encourageant des accords de licence individuels ou collectifs, n’a manifestement pas plus à Donald Trump puisqu’il a limogé – le lendemain de la publication de ce rapport (2) – sa présidente Shira Perlmutter (photo), en poste depuis octobre 2020. Alors que les procès se sont multipliés à l’encontre des sociétés comme OpenAI (ChatGPT), laquelle appelle avec xAI (Elon Musk, « l’ami » de Trump) à supprimer toute loi sur la propriété intellectuelle. De son côté, l’Office de l’Union européenne pour la propriété intellectuelle (EUIPO) – agence décentralisée du Conseil de l’UE – reconnaît l’importance des organismes de gestion collective dans la facilitation des licences entre les titulaires de droits et les développeurs d’IA. Cependant, il ne détaille pas de mécanismes spécifiques de rémunération ou de redistribution des revenus. Dans les conclusions de son rapport intitulé « The Development of Generative Artificial Intelligence from a Copyright Perspective » (3), l’EUIPO constate que « la plupart des développeurs de GenAI (4) s’approvisionnent en contenu accessible en ligne sans autorisation préalable des titulaires de droits d’auteur, bien qu’un marché de la licence directe commence à émerger lentement ».
Le rapport européen estime que « les organismes de gestion collective [des droits d’auteurs, OGC en français ou CMO (5) en anglais, ndlr] pourraient gérer des licences collectives étendues pour les usages liés à l’entraînement des modèles d’IA, incluant des œuvres de titulaires non-membres, sauf en cas d’opposition explicite ». Ces organismes, tels que la Gema en Allemagne ou la Sacem en France, pourraient, toujours selon l’EUIPO, garantir « une distribution transparente et équitable des revenus générés par les accords de licence avec les développeurs d’IA ». Certains OGC/CMO, comme PRS for Music au Royaume-Uni, participent d’ailleurs à l’initiative RightsAndAI où les titulaires de droits gèrent leur « réserves de droits » vis-à-vis des développeurs d’IA.

Rémunération proportionnelle versus forfaitaire
En France, dans son rapport « Rémunération des contenus culturels utilisés par les systèmes d’IA » (6) qui sera examiné le 23 juin, le CSPLA suggère – au législateur – la création d’une « place de marché » jouant le « rôle d’accélérateur » des négociations de licence et de rémunération. Celle-ci devrait être proportionnelle plutôt que forfaitaire, selon ce rapport, et en fonction du chiffre d’affaires réalisé par l’exploitant de l’œuvre. Pour le tarif des licences, la méthode « pay to train » pratiquée par l’audiovisuel et la photo est utilisée par OpenAI ou Google. La CSPLA appelle à « consacr[er] la gestion individuelle adossée, le cas échéant, à une gestion collective volontaire », afin de bien préserver le « monopole » de l’auteur sur son œuvre. @

Charles de Laubier

Mesures techniques contre le piratage : les ayants droit exigent plus des plateformes

L’Arcom a publié le 25 octobre son rapport 2024 d’« évaluation des mesures techniques d’identification des œuvres et objets protégés mises en œuvre par les fournisseurs de services de partage de contenus en ligne ». Trois ans après la loi « Antipiratage », les ayants droit ne sont pas satisfaits de ces outils.

La loi du 25 octobre 2021 de « régulation et de protection de l’accès aux œuvres culturelles à l’ère numérique », loi dite « Antipiratage » (1), a confié à l’Autorité de régulation de la communication audiovisuelle et numérique (Arcom) – que préside jusqu’au 2 février 2025 Roch-Olivier Maistre (photo) – une mission d’évaluation de l’efficacité des mesures de protection des œuvres et objets protégés prises par les fournisseurs de services de partage de contenus en ligne (YouTube, Instagram, Facebook, Snapchat, TikTok, Pinterest, Dailymotion, X/Twitter, …). Et ce, aux termes de l’article L. 331-18 du code de la propriété intellectuelle (CPI).

« Mesures techniques », filtrage et blocage
Les plateformes numériques de partage de contenus protégés par le droit d’auteur et les droits voisins doivent obtenir l’autorisation préalable des titulaires de droits pour les œuvres et objets protégés que leurs internautes utilisateurs téléchargent sur leur service pour les partager. En l’absence d’autorisation, ces fournisseurs de services de partage de contenus – plateformes vidéo telles que YouTube ou réseaux sociaux tels qu’Instagram ou X (ex-Twitter), soit au total 23 services en France, d’après l’Arcom – doivent, afin de ne pas engager leur responsabilité : démontrer avoir fourni leurs meilleurs efforts pour obtenir une autorisation préalable auprès des titulaires de droits ; avoir fourni leurs meilleurs efforts pour garantir l’indisponibilité des contenus pour lesquels les titulaires de droit leur ont fourni les informations pertinentes et nécessaires ; avoir agi promptement, dès réception d’une notification, pour bloquer ou retirer le contenu signalé et empêcher son nouveau téléchargement sur son service.
Ce régime spécifique d’autorisation et de responsabilité des plateformes de partage, au regard du droit d’auteur et des droits voisins, découle de la transposition de l’article 17 sur le filtrage des contenus de la directive européenne « Droit d’auteur dans le marché unique numérique » du 17 avril 2019, dite directive « Copyright » (2). (suite)

Cet article 17 – très controversé à l’époque (3) – épargne cependant du dispositif ce qui relève du droit de citation, de critique, de revue, ou d’utilisation à des fins de caricature, de parodie ou de pastiche. Cette exception au droit d’auteur et aux droits voisins n’est pas explicitement reprise dans l’article L. 137-2 du CPI (4) qui a transposé en France cet article 17. Ayant fait couler beaucoup d’entre à la fin des années 2010, l’article 17 de la directive « Copyright » ne remet pas en cause le statut d’hébergeur, mais crée seulement une exception au droit d’auteur dès lors que les services concernés réalisent des actes de communication au public en ligne. Pour être en conformité avec les obligations qui leur incombent, les YouTube, Instagram et autres TikTok doivent recourir à des « mesures techniques » d’identification et de protection des contenus prévues par la directive « Droit d’auteur et droits voisins dans la société de l’information » du 22 mai 2001, dite directive « DADVSI » (5), ces outils « rest[ant] indispensable pour assurer la protection et l’exercice effectif des droits conférés aux auteurs et aux autres titulaires de droits » par la directive « Copyright » (6).
La définition de ces mesures techniques, établie depuis plus de 23 ans maintenant, est à suivante : « On entend par “mesures techniques”, précise la directive DADVSI dans son article 6-3, toute technologie, dispositif ou composant qui, dans le cadre normal de son fonctionnement, est destiné à empêcher ou à limiter, en ce qui concerne les œuvres ou autres objets protégés, les actes non autorisés par le titulaire d’un droit d’auteur ou d’un droit voisin du droit d’auteur […]. Les mesures techniques sont réputées efficaces lorsque l’utilisation d’une œuvre protégée, ou celle d’un autre objet protégé, est contrôlée par les titulaires du droit grâce à l’application d’un code d’accès ou d’un procédé de protection, tel que le cryptage, le brouillage ou toute autre transformation de l’œuvre ou de l’objet protégé ou d’un mécanisme de contrôle de copie qui atteint cet objectif de protection ».

Content ID, Rights Manager, Signature, …
C’est dans ce cadre législatif européen que se sont multipliées les mesures techniques : Content ID de YouTube, Rights Manager de Meta (ex-Facebook), MediaMatch de TikTok, Signature de l’Ina (7) Dailymotion, Content Claiming Portal (8) de Pinterest, ou encore RightsAudit/RightsRx d’Audible Magic pour les producteurs de musique et les réseaux sociaux. Ces mesures techniques sont devenues nécessaires pour les plateformes numériques de partage de contenus protégés par le droit d’auteur, afin de les bloquer avant leur mise à disposition ou les retirer suite à une notification – si leur utilisation est considérée comme du piratage ou de la contrefaçon par les ayants droit de l’audiovisuel, du cinéma, de la musique, de l’image, de la photographie et de l’édition. Ces mesures techniques de filtrage sur Internet peuvent aussi être mises en place pour mesurer la consommation effective des contenus protégés, voire les monétiser. En France, l’article L. 331-18 du CPI – introduit par la loi « Antipiratage » de 2021 – confie à l’Arcom une « mission d’évaluation du niveau d’efficacité des mesures de protection des oeuvres et objets protégés prises par les fournisseurs de services de partage de contenus en ligne ».

Des recommandations « Arcom » non suivies
Les agents habilités et assermentés de l’ex-CSA+Hadopi peuvent « mettre en œuvre des méthodes proportionnées de collecte automatisée des données publiquement accessibles » et l’Arcom peut « solliciter toutes informations utiles auprès des fournisseurs de service, des titulaires de droit et des concepteurs des mesures de protection ». Elle peut formuler des recommandations en vue de leur amélioration ainsi que sur le niveau de transparence requis (9), notamment en encourageant la coopération entre titulaires de droit et fournisseurs de services de partage de contenus, ou encore procéder au règlement de différends entre utilisateurs et ayants droit en cas de litige sur les suites données par le fournisseur de services à la plainte d’un utilisateur. Le tout premier rapport d’« évaluation des mesures techniques d’identification des œuvres et objets protégés » avait été publié le 27 avril 2023 par l’Arcom, laquelle y faisait treize recommandations à l’attention des plateformes numériques et des ayants droit.
Or, dans son second rapport publié le 25 octobre 2024, l’Arcom fait part de son mécontentement de na pas avoir été suivie pour certains points : « L’autorité constate avec insatisfaction la faible implication des parties à mettre en œuvre ces recommandations. Parmi celles-ci, une seule [la recommandation n° 11] a été suivie par les ayants droit [qui] ont […] apporté des réponses concernant les outils et coopéré avec l’autorité afin qu’elle puisse opérer ses évaluations. Les autres recommandations n’ont pas été suivies par les parties, et plus particulièrement celle demandant aux fournisseurs de services de préciser, dans leurs conditions générales d’utilisation ou dans les formulaires de contestation mis en ligne, la possibilité pour les utilisateurs et les ayants droit de saisir l’Arcom en cas de conflit dans le cadre d’une procédure de règlement de différends, ou encore celle demandant à informer les utilisateurs français des règles applicables en matière de droit d’auteur en France […] ». Aussi, ce deuxième rapport (10) sonne comme un rappel à l’ordre sur ces recommandations non prises en compte. Et l’Arcom en rajoute une couche, puisque ce second rapport formule six nouvelles recommandations, à savoir pour les fournisseurs de services de partage de contenus : conclure des accords et convenir avec les ayants droit de procédures facilitées pour la notification des contenus (recommandation n° 1) ; harmoniser les délais de traitement pour l’ensemble des secteurs culturels (recommandation n° 2) ;
mentionner les règles applicables sur le territoire français en matière de droit d’auteur comme recommandé dans le cadre du précédent rapport (recommandation n° 3) ;
préciser, dans les conditions générales d’utilisation ou dans les formulaires de contestation mis en ligne, la possibilité pour les utilisateurs et les ayants droit de saisir l’Arcom, en cas de conflit, dans le cadre d’une procédure de règlement de différends (recommandation n° 4) ; donner à l’Arcom l’accès aux outils de reconnaissance des contenus à des fins d’évaluation (recommandation n° 5) ; améliorer la robustesse des outils dans leur capacité à identifier les images fixes (recommandation n° 6).
A travers ces recommandations de l’Arcom, dont le groupe de travail « Protection des droits sur Internet » est présidé par Denis Rapone (photo ci-contre), ex-président de l’Hadopi (2018-2021), transparaissent les exigences des ayants droit vis-à-vis des plateformes numériques et des réseaux sociaux, lesquels ne coopèreraient pas assez à leurs yeux dans la lutte contre le piratage sur Internet. Les ayants droit ont notamment relevé le fait que des services « comme X (ex-Twitter) » ne possèdent pas d’outils de reconnaissance de contenus ou ne mettent pas en œuvre des mesures efficaces pour empêcher le téléversement d’œuvres protégées. Les ayants droit ont en outre fait part à l’Arcom de leurs difficultés à prendre en main Rights Manager (Meta/Facebook/Instagram), notamment son interface de configuration qui, selon l’un d’eux, « doit impérativement faire l’objet de modifications », mais aussi sa capacité « sous exploitée et peu optimale » à détecter les contenus. « Surtout, note l’Arcom, il est rapporté que l’outil est moins efficace sur Instagram que sur Facebook ». Le secteur de l’édition a, lui, fait part du caractère inadapté aux contenus écrits de Rights Manager (Meta) et de Content ID (YouTube). Quant à l’outil MediaMatch (TikTok) « déployé tardivement », il est jugé « inefficace ».

Accords de « monétisation » et de « blocage »
« Par ailleurs, constate le régulateur de l’audiovisuel et du numérique dans son deuxième rapport, trente-cinq accords ont été portés à la connaissance de l’Arcom par les ayants droit répondants. Ces accords peuvent être mixtes et la majorité d’entre eux concerne la monétisation (vingtneuf) et le blocage (vingt-trois). Ils sont principalement conclus avec les services Dailymotion, Meta, Snapchat, TikTok et YouTube. Les ayants droit regrettent en particulier l’absence d’accords à ce jour avec X (ex-Twitter) ». Sur les 23 services identifiés par l’Arcom concernés par la loi « Antipiratage », certains d’entre eux ne proposent pas d’outils de reconnaissance de contenus et sont donc dans le collimateur des ayants droit. @

Charles de Laubier

Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet.

Exception de Text and Data Mining
Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés. Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur prochaine du règlement européen sur l’intelligence artificielle – l’AI Act dont le texte final (1) a été signé le 13 juin 2024 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles.

En effet, l’article 53 et l’annexe XI de l’AI Act imposent, entre autres, aux fournisseurs de modèles d’IA à usage général (2) de mettre à disposition des informations sur les données utilisées pour l’entraînement de ces modèles, au moyen d’un document-type qui sera mis à disposition par le bureau de l’IA (AI Office). Ils doivent notamment indiquer comment ces données ont été obtenues et sélectionnées, ainsi que toutes les mesures prises pour détecter les sources de données inadéquates. Pour pouvoir se conformer de manière sereine à ces nouvelles exigences (3), il est indispensable de s’assurer que les données d’entraînement ont été récupérées et collectées dans le respect des droits de propriété intellectuelle et du RGPD, sous peine de risquer des actions en contrefaçon ou des procédures de sanction devant les autorités de contrôle (4). En effet, le contenu d’un site Internet qu’un acteur entend scrapper (« moissonner ») pour constituer une base de données d’entraînement peut à la fois contenir des données à caractère personnel, mais également être protégé au titre du droit d’auteur (5) ou du droit des bases de données (6). Or, par principe, toute reproduction et utilisation d’un contenu protégé par un droit de propriété intellectuelle nécessite d’obtenir l’autorisation du titulaire des droits concernés. Néanmoins, afin de favoriser le développement de l’IA, le code de la propriété intellectuelle (CPI) a introduit, pour le droit d’auteur et le droit des producteurs de bases de données, les exceptions de fouilles de textes et de données (dites de Text and Data Mining) qui permettent de scrapper des données à des fins d’entraînement des modèles, sous réserve de respecter un certain nombre de conditions. Il y a en réalité deux régimes : la fouille de textes et de données à des fins de recherche scientifique (7) et celle à des fins diverses (8).
L’exception de fouille à des fins de recherches scientifique présente l’avantage d’être un droit absolu (le titulaire des droits ne peut pas s’y opposer), sous réserve que l’accès aux données soit réalisé de manière licite (9). Néanmoins, son périmètre est relativement restreint puisque seuls peuvent s’en prévaloir certains acteurs limitativement énumérés (10). La plupart des fournisseurs de systèmes d’IA ne peut donc pas mobiliser cette exception et doit se rabattre sur l’exception générale dite à des fins diverses. Pour pouvoir invoquer le bénéfice de cette exception générale, le fournisseur de système d’IA doit accéder aux données de manière licite et s’assurer que le titulaire des droits de propriété intellectuelle ne s’y est pas opposé.

« Moissonnage » et données personnelles
Les textes précisent que l’opposition du titulaire des droits « n’a pas à être motivée et peut être exprimée par tout moyen », notamment « au moyen de procédés lisibles par machine, y compris des métadonnées, et par le recours à des conditions générales d’utilisation » (11). Pour l’opposition via des procédés techniques, plusieurs outils existent (Robot.txt, AI.txt, TDMRep, …). En pratique, cela signifie que pour pouvoir scrapper les données des sites Internet à des fins d’entraînement des modèles, les fournisseurs de systèmes d’IA ne doivent pas contourner les éventuels dispositifs de protection existants (par exemple un accès restreint par un compte utilisateur) et doivent s’assurer, au moment de l’extraction des données, que les conditions générales d’utilisation (CGU) et/ou mentions légales du site Internet ne contiennent pas de clause interdisant l’extraction des données et que les métadonnées du site Internet n’expriment pas non plus une telle interdiction. L’AI Act confirme ce dernier point (12).
Lorsqu’un titulaire de droits s’est opposé à l’extraction de ses données, le fournisseur de système d’IA n’a d’autre choix que d’obtenir une autorisation expresse (13) au moyen d’un accord de licence ou de partenariat, comme ont récemment pu le faire OpenAI avec Le Monde, Die Welt et El País (14). Une fois ces vérifications opérées, le fournisseur de système d’IA devra suivre des étapes supplémentaires si le contenu qu’il souhaite « moissonner » contient des données à caractère personnel, afin de respecter le RGPD.

Base légale de l’intérêt légitime
Ces derniers mois, la Cnil a publié plusieurs fiches pour guider les fournisseurs de systèmes d’IA (15) au sein desquelles elle clarifie comment appliquer les principes clefs aux spécificités de l’IA. Elle y admet qu’il est possible de fonder les traitements d’entraînement des modèles d’IA sur la base légale de l’intérêt légitime, notamment lorsque les données sont collectées à partir de sources publiques (16), sous réserve de mener une analyse au cas par cas permettant de documenter la légitimité de l’intérêt poursuivi, sa nécessité et le fait qu’il n’y a pas d’atteinte disproportionnée aux intérêts, droits et libertés des personnes. Pour autant, en juin 2024, Noyb a porté plainte – auprès de onze « Cnil » en Europe – contre Meta dont il conteste la faculté de se fonder sur l’intérêt légitime pour récupérer les données de Facebook et Instagram afin d’entraîner ses modèles d’IA. Dans l’attente, Meta a stoppé son projet (17).
La première étape avant de scrapper des données à caractère personnel est de définir la finalité du traitement, à partir de laquelle l’analyse de conformité aux principes de protection des données personnelles pourra être réalisée. A partir de cette finalité (créer une base de données afin d’entraîner des modèles d’IA permettant d’évaluer l’appréciation d’œuvres par le public, développer un LLM capable de répondre à des questions, générer du texte, effectuer des résumés, etc,…), le fournisseur de modèles d’IA devra s’assurer du respect du principe de minimisation, en ne collectant que les données pertinentes et nécessaires pour atteindre son objectif. Concrètement, cela signifie qu’il doit s’interroger en amont sur les catégories de données nécessaires pour l’entraînement du modèle d’IA. En pratique, il devra définir les catégories de données à collecter et mettre en place des filtres permettant d’exclure la collecte de certaines données. Dans sa fiche dédiée au web scraping (18), la Cnil précise que dans l’hypothèse où des données non pertinentes seraient collectées malgré les filtres mis en place, il convient de supprimer ces données, immédiatement après leur collecte ou dès elles ont été identifiées. Elle appelle également à la prudence sur la collecte automatique de données sensibles en invitant les fournisseurs à appliquer des filtres permettant d’écarter la collecte de données sensibles (19) non pertinentes ou à exclure de leurs activités de scraping certains sites comportant par nature ce type de données.
Respecter le RGPD suppose, par ailleurs, d’informer les personnes concernées et de faciliter l’exercice de leurs droits. La Cnil reconnaît (20) qu’en cas de collecte parweb scraping, une information individuelle des personnes pourrait, dans certains cas, être disproportionnée et donc non obligatoire. Elle recommande alors au fournisseur du système d’IA de fournir une information générale (par exemple au sein de sa politique de confidentialité) contenant notamment les catégories de sites sources utilisés avec des liens hypertextes vers ceux-ci, en proposant un modèle dédié. Pour les droits des personnes, elle rappelle qu’un responsable du traitement n’a pas à conserver ou collecter des informations supplémentaires qui ne lui sont pas nécessaires dans le seul but de permettre l’exercice des droits. La Cnil propose néanmoins des exemples de mesures que les fournisseurs de modèles d’IA pourraient mettre en place pour faciliter l’exercice des droits (comme la conservation de métadonnées ou d’informations sur la source des données pour faciliter la recherche d’une personne au sein de la base ou l’indication aux personnes des données à fournir pour les identifier).
La Cnil propose enfin de mettre en place des mesures supplémentaires pour garantir l’équilibre attendu de ces traitements basés sur l’intérêt légitime. Certaines mesures découlant des règles précédemment citées semblent réalisables : exclure par défaut la collecte à partir de certains sites contenant des données intrusives ; prévoir la possibilité de s’opposer au traitement de manière discrétionnaire ; appliquer des procédés d’anonymisation ou de pseudonymisation après la collecte des données. D’autres semblent moins pragmatiques.

AI Office : recommandations très attendues
Certains acteurs pourraient ainsi saisir l’opportunité de remonter leurs questionnements, difficultés pratiques, appréciation des règles dans le cadre de la consultation publique à laquelle sont soumises certaines fiches jusqu’au 15 septembre 2024 (21) ou répondre au questionnaire (22). A l’aune de l’entrée en vigueur de l’AI Act, les fournisseurs de modèles d’IA à usage général attendront donc les précieuses recommandations et modèles du bureau de l’IA, tout récemment créé (23), sur les documents à produire pour les sources de données d’entraînement, afin de leur permettre d’engager les travaux nécessaires à la compilation de ces informations. @

Les enjeux du droit d’auteur à l’ère de l’intelligence artificielle (IA) : entre exceptions et interprétations

La propriété intellectuelle est entrée dans une zone de turbulences provoquées par les IA génératives. L’utilisation d’œuvres reste soumise à l’autorisation des auteurs, mais le droit d’auteur est limité dans certains cas comme la fouille de textes et de données. L’AI Act sera à interpréter.

Par Jade Griffaton et Emma Hanoun, avocates, DJS Avocats*

La récente législation européenne sur l’intelligence artificielle (IA) – l’AI Act dans sa dernière version de compromis final datée du 26 janvier 2024 (1) (*) (**) – adopte une définition flexible de « système d’IA », désigné comme « un système basé sur des machines conçues pour fonctionner avec différents niveaux d’autonomie et d’adaptabilité après leur déploiement et qui, à partir des données qu’il reçoit, génère des résultats tels que des prédictions, du contenu, des recommandations ou des décisions pouvant influencer des environnements physiques ou virtuels » (2).

Exception de « fouille de textes et de données »
La question de la relation entre le droit de la propriété littéraire et artistique et l’IA est une préoccupation ancienne. Lors de la phase d’entraînement, le système d’IA reçoit des données. A ce stade, se pose la question de l’intégration de contenus protégés par le droit d’auteur aux fins du développement du système. Lors de la phase de génération, le système d’IA génère des résultats, voire des créations, à la demande de l’humain. Se pose alors la question de l’encadrement juridique de ces créations générées, en tout ou partie, par un système d’IA. Ces problématiques juridiques actuelles doivent être envisagées à la lumière des nouveaux textes destinés à réguler le domaine de l’IA, et notamment la récente proposition de règlement européen sur l’IA, et la proposition de loi française visant à encadrer l’utilisation de l’IA par le droit d’auteur (3).
De nouveaux contours de la possibilité d’utiliser des œuvres pour entraîner l’IA ? Les systèmes d’IA ont besoin, au stade de leur apprentissage et développement, d’avoir accès à de grands volumes de textes, images, vidéos et autres données. Ces contenus sont susceptibles d’être protégés par le droit d’auteur. L’objectif principal du règlement IA, dévoilé en 2021 par la Commission européenne, consiste à réguler les systèmes d’IA introduits sur le marché européen, en adoptant une approche axée sur les risques et en assurant un niveau élevé de protection des droits fondamentaux, de la santé publique, de la sécurité et de l’environnement.

Ainsi, l’AI Act n’a pas vocation à traiter les questions relatives au droit d’auteur. Et pourtant, il n’ignore pas totalement leur importance en présence d’un système d’IA. A ce propos, le règlement renvoie à une exception – au principe d’obtention d’une autorisation de l’auteur pour toute utilisation de son œuvre – issue du droit de l’Union européenne (UE), celle de la fouille de textes et de données (text and data mining ou TDM). Cette exception – non spécifique aux systèmes d’IA – permet, semble-t-il, de justifier juridiquement l’utilisation de contenus protégés par le droit d’auteur en dispensant les opérateurs d’IA d’obtenir l’autorisation des auteurs qui ne se sont pas opposés expressément. Elle n’est pas nouvelle. C’est la directive européenne « Droit d’auteur et les droits voisins dans le marché unique numérique » de 2019 (4) qui a voulu rendre obligatoire pour les Etats membres de prévoir une exception aux droits de reproduction d’une œuvre et d’extraction d’une base de données, à des fins d’utilisation de technologies de fouille de textes et de données – technologies qui permettent une analyse informatique automatisée de textes, sons, images ou données sous forme numérique, en grande quantité, en vue d’acquérir de nouvelles connaissances. En y faisant ce renvoi, la proposition de règlement confirme, semble-t-il, que cette exception s’applique aux systèmes d’IA mais n’apporte aucune nouveauté en la matière. La proposition de loi française – dont l’objet même est, contrairement à la proposition européenne, d’encadrer l’IA par le droit d’auteur – envisage d’incorporer dans le code de propriété intellectuelle (CPI), au sein de l’article L.131-3, un alinéa prévoyant que l’intégration d’œuvres protégées par le droit d’auteur dans le système d’IA est soumise « à une autorisation par les auteurs ». Une telle formulation – « L’intégration par un logiciel d’intelligence artificielle d’œuvres de l’esprit protégées par le droit d’auteur dans son système et a fortiori leur exploitation est soumise aux dispositions générales du présent code et donc à autorisation des auteurs ou ayants droit » (5) – pourrait recevoir diverses interprétations.

Question de l’« autorisation des auteurs »
L’intégration des œuvres dans un système d’IA est un nouveau mode d’exploitation que la proposition semble avoir voulu prendre en compte. Doit-on comprendre que l’intégration dans une IA est une forme de reproduction de l’œuvre à laquelle s’applique, comme pour toutes formes de reproduction, l’exception de fouilles de textes et de données ? Dans ce cas, le régime actuel est inchangé : donc, les développeurs d’IA peuvent encore intégrer des œuvres à la phase d’entraînement, sauf opposition des auteurs. Doit-on plutôt comprendre que cette formulation veut rompre avec le régime actuel en consacrant expressément une exigence d’obtention d’autorisation de auteurs en écartant l’exception de fouilles de textes et de données ? Dans ce cas, le nombre d’œuvres pouvant être intégrées dans les systèmes d’IA serait réduit à celles dont une autorisation a été donnée, et non celles ne faisant pas l’objet d’opposition. La première interprétation semble la plus appropriée, notamment eu égard à la formulation de l’alinéa précisant que « [l’intégration] est soumise aux dispositions générales du présent code et donc à autorisation des auteurs », et à sa place dans le CPI (6).

Pays de « common law » et pays de « civil law »
Nouvelle exigence de transparence lorsque des œuvres sont utilisées par l’IA. La proposition AI Act, bien qu’elle n’ait pas vocation à traiter de la question du droit d’auteur, exige des fournisseurs de systèmes d’IA une certaine transparence lorsque des contenus protégés par un droit d’auteur ont été utilisés au stade du développement dudit système. En effet, le texte contraint les fournisseurs de modèles d’IA à finalité générale (« general purpose IA models ») à mettre en place une politique pour respecter le droit d’auteur de l’UE, et à rendre public un résumé suffisamment détaillé du contenu utilisé pour entraîner le modèle d’IA à finalité générale (7). La mise en place de la politique aurait pour objectif d’identifier et respecter les réservations de droits – ou oppositions – au titre de l’exception de fouilles de textes et de données.
La publication du résumé suffisamment détaillé devrait se faire à partir d’un modèle publié par l’Office de l’intelligence artificiel (OIA, ou AI Office), organe instauré par la proposition de législation. Il aurait pour objet – sans être techniquement détaillé – « par exemple d’énumérer les principales collections ou ensembles de données qui ont servi à la formation du modèle, tels que les grandes bases de données privées ou publiques ou les archives de données, et en fournissant une explication narrative sur les autres sources de données utilisées » (8). De telles exigences en termes de transparence témoignent de la prise en compte des exigences posées par le droit d’auteur. D’autant que le règlement IA prévoit que les obligations de transparences ne s’appliquent pas aux fournisseurs de systèmes d’IA rendant accessibles au public, sous licence libre ou ouverte, les modèles d’IA (9) sauf celles liées au droit d’auteur. Sortir les exigences de transparence liées au droit d’auteur de l’exception générale témoigne encore de leur importance.
Vers une remise en cause de la non-« protégeabilité » des créations issues d’un système d’IA ? Alors que les pays de « common law » comme le Royaume Uni et les Etats-Unis admettent la « protégeabilité » des œuvres générées par des machines (10) – notamment parce que l’œuvre est placée au centre et les auteurs obtiennent une protection indirecte à travers la protection directe de la propriété créée –, les pays de « civil law » ont tendance à refuser qu’une œuvre au sens juridique du terme puisse être créée par une machine dès lors que la protection est attachée directement à la personne de l’auteur. Traditionnellement, l’originalité s’entend en droit français et européen de l’empreinte de la personnalité de l’auteur en manifestant ses choix libres et créatifs (11). Une telle conception exclut a priori toute originalité d’une œuvre conçue par une IA du fait du défaut de personnalité de l’IA. Si, le règlement IA ne traite pas de la question de la « protégeabilité » des « créations » générées par l’IA, la proposition de loi française, a contrario, tente de plonger au cœur du sujet. Elle envisage d’intégrer au sein de l’article L.321-2 du CPI le cas précis d’une « œuvre créée par une intelligence artificielle sans intervention humaine directe » (12). Par cette disposition, le droit français semble admettre qu’une œuvre puisse être créée par une machine, et non un être humain. Dans ce cas, la proposition de loi désigne comme titulaires des droits, non pas les personnes ayant développé le système ou ayant commandé la création à la machine, mais les auteurs des œuvres intégrées au système d’IA lors de la phase d’entraînement.
L’œuvre serait-elle alors empreinte de la personnalité des auteurs des œuvres premières ayant servi à entraîner le système d’IA ? Ces auteurs seraient à la fois titulaires de droits sur leur œuvre première – sans difficulté – et de droits sur les œuvres générées par l’IA lorsque leur œuvre première aurait été exploitée au stade de développement de l’IA. La problématique qui se pose d’emblée en pratique est celle de la multitude de titulaires d’une œuvre générée par un système d’IA. La proposition de loi envisage alors que les droits soient gérés par des organismes de gestion collective (comme la Scam ou la Sacem) qui percevront la rémunération ou une taxation versée par la société qui exploite le système d’IA lorsque l’œuvre est engendrée par l’intégration d’œuvres dont l’origine ne peut être déterminée. La proposition de loi exige aussi que soit apposée la mention « Œuvre générée par IA » et inséré le nom des auteurs des œuvres premières.

Protection des œuvres générées par l’IA
En revanche, la protection accordée aux œuvres générées par l’IA ne semble pas aussi complète que celle accordée aux œuvres « classiques » : la proposition de loi française ne traite pas plus du droit moral ni des autres droits patrimoniaux que de celui de la rémunération juste et équitable des auteurs. Peut-être que cela s’explique par l’ambition de la proposition de loi « Encadrer l’intelligence artificielle par le droit d’auteur » de garantir une rémunération juste et équitable de l’exploitation des œuvres et de garantir une traçabilité des auteurs et artistes. Il reste à voir comment seront appréhendées en pratique de telles évolutions juridiques. @

* Article écrit avec la collaboration
de Camille Rodriguez, DJS Avocats