Premier jugement historique en Europe condamnant OpenAI pour atteinte au droit d’auteur

Même si ce jugement historique du 11 novembre 2025 – prononcé par le tribunal de Munich contre de l’éditeur américain de ChatGPT accusé de contrefaçon musicale – est provisoire (OpenAI ayant fait appel), il sonne comme un avertissement planétaire à toutes les sociétés d’IA génératives.

Tobias Holzmüller (photo), le PDG de la Gema, qui est en Allemagne ce que la Sacem est en France, peut être fier du verdict historique obtenu en première instance du tribunal régional de Munich le 11 novembre 2025 : la manière dont OpenAI gère actuellement ChatGPT viole les lois européennes applicables sur le droit d’auteur. « Pour la première fois en Europe, l’argument en faveur de l’utilisation par les systèmes d’IA générative d’œuvres protégées par le droit d’auteur a été examiné juridiquement et statué en faveur des créateurs des œuvres », s’est félicitée la Société pour les droits d’exécution musicale et de reproduction mécanique (Gema).

Copyright : Internet n’est pas open bar
Cette décision judiciaire allemande – première de ce type dans l’Union européenne (UE) et au retentissement mondial – a clairement jugé que la licorne américaine OpenAI aurait dû acquérir les droits sur les paroles des paroliers et auteurs-compositeurs du répertoire de la Gema, avant de les utiliser pour entraîner ses modèles d’IA et de les exploiter avec son chatbot ChatGPT. De telles reproductions sans autorisations constituent aux yeux du tribunal de Munich des violations du droit d’auteur, et pour lesquelles OpenAI aurait dû obtenir une licence qui offre aux titulaires des droits une rémunération appropriée.
C’est la première fois dans l’UE qu’une décision clarifie aujourd’hui des questions juridiques-clés concernant la manière dont les nouvelles technologies interagissent avec le copyright européen. « Internet n’est pas une sorte de buffet en libre-service, et les réalisations créatives des êtres humains ne sont pas simplement des modèles à utiliser gratuitement. Aujourd’hui, nous avons établi un précédent qui protège et clarifie les droits des détenteurs de droits d’auteur créatifs : les opérateurs d’outils d’IA tels que ChatGPT doivent (suite) également se conformer à la loi sur le droit d’auteur. Aujourd’hui, nous avons défendu avec succès les moyens de subsistance des créateurs de musique », a déclaré Tobias Holzmüller. Et ce n’est pas faute pour la Gema de ne pas proposer un modèle de licence développé spécifiquement pour les fournisseurs de systèmes d’IA. Depuis septembre 2024, la « Sacem » allemande (basée à Berlin) propose ce type de licence IA comme « base juridique sûre » pour utiliser la musique afin de faire fonctionner et d’entraîner les modèles d’IA, « en garantissant que les créateurs de musique soient équitablement rémunérés, de manière à continuer d’encourager l’innovation musicale ». Or, jusqu’à présent, la Gema constate qu’OpenAI a montré « une réticence générale » à suivre tout modèle de licence quel qu’il soit. L’organisation berlinoise, qui lance ainsi un avertissement à toutes les sociétés d’IA dans le monde, a par ailleurs déposé plainte contre une autre entreprise américaine, Suno, qui, elle, fournit des contenus audios générés par une IA entraînée sur des enregistrements originaux d’œuvres du répertoire de la Gema. L’audience devrait avoir lieu le 26 janvier 2026. A noter que par ailleurs Suno a annoncé le 25 novembre 2025 un accord avec Warner Music (1). « La décision du tribunal régional de Munich montre que la manière dont les systèmes d’IA fonctionnent porte systématiquement atteinte aux droits des auteurs. Il y a un besoin urgent d’agir ici. Le modèle de licence de la Gema propose une solution, mais le cadre juridique doit également être amélioré en faveur des artistes créatifs, afin que l’acquisition des licences par les entreprises devienne la règle. Nous continuerons à travailler vers cet objectif », a prévenu Kai Welp, le directeur juridique de la société allemande de gestion collective des musiciens (2).
La justice allemande a clairement indiqué qu’OpenAI n’est pas une organisation de recherche bénéficiant de privilèges et que l’autorisation légale de ce que l’on appelle l’exploration de texte et de données – Text and Data Mining (TDM) – ne justifie en aucun cas le stockage et la production de paroles de chansons protégées par le droit d’auteur. Or la Gema a pu démontrer que ChatGPT reproduit des paroles protégées par le droit d’auteur, en réponse à de simples prompts. Le tribunal munichois a confirmé que cette utilisation suppose une obligation de délivrance de licences.

OpenAI Ireland Ltd et OpenAI LLC
Le groupe OpenAI a donc été condamné pour violation du droit d’auteur. La Gema représente les droits d’auteur détenus par plus de 100.000 membres – compositeurs, paroliers et éditeurs de musique – et plus de 2 millions de détenteurs de droits de propriété intellectuelle dans le monde. C’est l’une des plus grandes sociétés de gestion collective des droits d’auteur dans l’industrie musicale. La 42e chambre civile du tribunal régional de Munich lui a donné raison en confirmant l’essentiel de ses demandes de mesures injonctives, d’informations et de dommages-intérêts, contre deux sociétés du groupe OpenAI : la filiale européenne opératrice du chatbot ChatGPT, OpenAI Ireland Ltd (à Dublin), et la maison mère américaine – du moins l’entité commerciale à but lucratif OpenAI LLC (3) – basée en Californie (à San Francisco). La Gema a porté plainte contre ces deux sociétés du groupe d’IA génératives pour avoir mémorisé les paroles de la chanson dans des grands modèles de langage (LLM), permettant ainsi à ChatGPT de donner des réponses aux utilisateurs en grande partie fidèles aux paroles originales.

Pas de Text and Data Mining (TDM)
Les accusations de la Gema à l’encontre de la firme de Sam Altman (photo ci-contre) pour contrefaçon portent sur les paroles de neuf auteurs allemands célèbres : « Atemlos » de Kristina Bach, « 36 Grad » de Thomas Eckart, Inga Humpe, Peter Plate et Ulf Leo Sommer, « Bochum » et « Männer » de Herbert Grönemeyer, « Über den Wolken » de Reinhard Mey, « June » de Jan Vetter ainsi que « Es schneit », « In der Weihnachtsbäckerei » et « Wie schön, dass du geboren bist » de Rolf Zuckowski. OpenAI avait contesté les affirmations de la Gema, en prétendant qu’au contraire ses « modèles linguistiques » ne sauvegardaient pas ou ne copiaient pas de données d’entraînement spécifiques, mais reflétaient dans leurs paramètres ce qu’ils auraient appris sur la base de l’ensemble des données d’entraînement.
L’éditeur de ChatGPT estimait que les réponses du chatbot ne seraient générées qu’à la suite de saisies d’utilisateurs (prompts), et que par conséquence ce n’était pas OpenAI mais l’utilisateur en tant que producteur de la sortie qui serait responsable de celles-ci. De plus, dans tous les cas, OpenAI a invoqué les limites au droit d’auteur, en particulier l’exception pour ce que l’on appelle la fouille de textes et de données (TDM). Le jury allemand ne l’a pas entendu de cette oreille, et a décidé que « la mémorisation dans les modèles de langage et la reproduction des paroles des chansons dans les sorties du chatbot empiètent sur les droits d’exploitation du droit d’auteur. Celles-ci ne sont pas couvertes par les dispositions de restriction, en particulier la limitation de l’exploration de texte et de données ». Selon la 42e chambre civile, les paroles de la chanson en question étaient « reproductiblement » contenues dans les modèles linguistiques 4 (GPT 4) et 4o (GPT4Turbo) d’OpenAI. En effet, les données d’entraînement d’IA peuvent être contenues dans des modèles de langage et extraites en tant que résultats. C’est ce qu’on appelle la « mémorisation ». Une telle situation existe si les modèles de langage non seulement prennent des informations de l’ensemble de données d’entraînement pendant l’entraînement, mais trouvent également un transfert complet des données d’entraînement dans les paramètres spécifiés après l’entraînement. « Cette mémorisation a été établie en comparant les paroles des chansons contenues dans les données d’entraînement avec les reproductions dans les sorties. Compte tenu de la complexité et de la longueur des paroles, la coïncidence a été écartée comme cause de la reproduction des paroles. La mémorisation donnait une incarnation, comme condition préalable à la reproduction par droit d’auteur, des paroles contestées par des données dans les paramètres spécifiés du modèle. Les paroles des chansons en question étaient  »reproductiblement » définies dans les modèles », a expliqué le tribunal régional de Munich dans une communication (4) émise le 11 novembre 2025 dans la foulée du rendu de sa décision. A l’appui de son jugement, le jury s’est appuyé sur la directive européenne « Droit d’auteur et des droits voisins dans la société de l’information » de 2001 – ou DADVSI (5), parfois appelée « InfoSoc » – où il est précisé « par quelque moyen et sous quelque forme que ce soit » lorsqu’il est question de « reproduction directe ou indirecte, provisoire ou permanente » (6). Ce que l’Allemagne a, elle, transposé dans sa législation nationale dans sa loi sur le droit d’auteur dite « UrhG » (7). Aussi, selon la jurisprudence de la Cour de justice de l’Union européenne (CJUE), « une perceptibilité indirecte suffit à caractériser une reproduction dès lors que l’œuvre peut être perçue au moyen d’un dispositif technique ».
Et le tribunal insiste sur le fait que cette reproduction dans les modèles d’IA n’est pas couverte par les dispositions de limitation de l’exploration de texte et de données (TDM). Selon lui, la formation des IA extrait non seulement des informations des données d’entraînement, mais reproduit également des œuvres, ce qui ne constitue pas du TDM. « Le principe de l’exploration de texte et de données – ainsi que les dispositions de limitation associées selon lesquelles aucun intérêt d’exploitation n’est affecté par l’évaluation automatisée de la simple information elle-même – ne s’applique pas à [OpenAI]. Au contraire, les reproductions données dans le modèle empiètent sur le droit d’exploitation des titulaires de droits. […] Dans le cas des reproductions du modèle, l’exploitation de l’œuvre est définitivement compromise et les intérêts légitimes des titulaires des droits en sont violés », développe la décision judicaire.

En France, SACD et Scam réjouies
Autant l’homologue française de la Gema – la Société des auteurs, compositeurs et éditeurs de musique (Sacem) – n’a pas publié de communiqué sur cette première victoire européenne, autant la Société des auteurs et compositeurs dramatiques (SACD) et la Société civile des auteurs multimédia (Scam) ont fait communiqué commun (8) le 14 novembre 2025 pour se réjouir de cette décision historique et se dire « prêtes à négocier » des licences : « Cette décision crée un précédent essentiel que les services d’IA, qu’ils s’agissent des licornes européennes ou des multinationales américaines ou chinoises, ne peuvent ignorer : l’innovation ne peut se faire au détriment des créateurs et au mépris de leurs droits ». @

Charles de Laubier

L’intelligence artificielle plane sur les nouvelles « Assises du livre et de l’édition » du SNE

Alors que les Assises du livre numérique changent de nom pour devenir, le 4 décembre 2025, les « Nouvelles Assises du livre et de l’édition » (organisées par le SNE), le spectre de l’IA plane sur les maisons d’édition – avec le groupe Meta comme épouvantail, accusé d’entraîner Llama avec des livres.

Le Syndicat national de l’édition (SNE), qui regroupe les grands groupes de maisons d’édition (Hachette Livre, Editis, MediaParticipations, Madrigall, …) parmi plus de 700 membres, a débaptisé ses « Assises du livre numérique » – qui existaient depuis 2008 – pour les renommer « Nouvelles Assises du livre et de l’édition ». Fini ce rendez-vous dédié aux ebooks, place aux questions sur le livre en général et à ses innovations en particulier. Le thème de la première édition de ces nouvelles assises (1) : « Le pouvoir des livres », au cours d’une journée entière prévue le 4 décembre 2025, sur le site FrançoisMitterrand de la Bibliothèque nationale de France (BnF).

Meta invoque le « fair use » aux Etats-Unis
S’il est désormais essentiellement question de l’avenir du livre en tant que tel, dans la société (« objet social et politique ») et sur son marché (baissier en valeur et en nombre d’exemplaires), ces « Nouvelles Assises du livre et de l’édition » ne pouvaient pas faire l’impasse sur le numérique, bien que désormais relégué au second plan d’un programme tous azimuts (2). D’ailleurs, ne cherchez pas « livre numérique » dans la programmation. C’est l’intelligence artificielle (IA) qui s’est invitée à ces assises du livre. « Convaincus de son rôle essentiel à l’ère de l’intelligence artificielle, les acteurs de l’édition se mobilisent pour garantir le respect du droit d’auteur en régulant ces nouveaux outils et en développant des solutions éthiques et innovantes », a prévenu le SNE en préambule de la présentation de son événement. Et ce, au moment où – avec la Société des gens de lettres (SGDL) et le Syndicat national des auteurs et des compositeurs (Snac) – ce syndicat du boulevard Saint-Germain a porté plainte contre Meta Platforms au printemps 2025, devant la 3e chambre du Tribunal judiciaire de Paris. Ces trois organisations françaises reprochent (suite) à la maison mère de Facebook, Instagram et WhatsApp « une utilisation massive d’œuvres sous droits, sans autorisation de leurs auteurs et éditeurs, afin d’entraîner son modèle d’intelligence artificielle générative ».
Le président du SNE, Vincent Montagne, par ailleurs PDG de Média-Participations, dénonce un « parasitisme » et entend « faire reconnaître le non-respect du droit d’auteur » (3). Pour le président de la commission numérique du SNE, Florent Souillot (photo), également responsable du numérique chez Madrigall (Gallimard-Flammarion), la France est « le seul pays où des représentants d’éditeurs et d’auteurs poursuivent conjointement un fournisseur d’IA – Meta – pour suspicion d’utilisation de livres piratés » (4). L’assignation en justice en France n’est pas la seule action contre Meta, puisque le groupe de Mark Zuckerberg est aussi visé, cette fois aux Etats-Unis, par un groupe de 13 auteurs publiés, qui, à partir de juillet 2023, ont poursuivi Meta devant la justice pour « violation du Digital Millennium Copyright Act (DMCA) et du droit d’auteur en formant ses modèles de langage Llama (LLM (5)) sur leurs œuvres sans autorisation ».
Toutes ces actions américaines contre Meta ont été consolidées dans l’affaire « Kadrey, et al. v. Meta Platforms » devant le tribunal du Northern District de Californie. Et comme l’indique Meta, « le 25 juin 2025, le tribunal a accepté notre requête sur l’usage loyal [“fair use”, dans le texte, en référence à ce principe qui existe en droit américain mais par en Europe, ndlr] » qui permettrait « l’utilisation [par Meta] de livres protégés par un droit d’auteur pour une formation de ses modèles d’IA générative » (6). Le fair use est une exception au copyright, qui, dans le droit d’auteur américain, prévoit une utilisation équitable et sans autorisation de l’auteur. Meta avait téléchargé des livres sur Library Genesis (LibGen) et sur Anna’s Archive, une compilation de « bibliothèques fantômes » comprenant LibGen, Z-Library et d’autres. La cour californienne, qui a ainsi donné raison à Meta pour l’instant, doit encore entendre les requêtes lors d’une prochaine audience prévue le 2 avril 2026.

En Europe, les exceptions au droit d’auteur
A défaut de fair use dans l’Union européenne, où Meta a son siège européen à Dublin en Irlande, les ayants droit de l’édition (éditeurs et auteurs) en Europe doivent agir dans le cadre du règlement européen sur l’IA (AI Act) et dans le respect des exceptions au droit d’auteur dispensant d’obtenir l’autorisation des ayants droit justement. Car la directive européenne « Droit d’auteur et droits voisins dans le marché unique numérique » de 2019, dite directive « Copyright » (7), prévoit une exception de « fouilles de textes et de données » – en anglais, Text and Data Mining (TDM) – qui garantit aux fournisseurs de systèmes d’IA le droit de « moissonner » – « à des fins de recherche scientifique » (8) – un grand volume de données librement accessibles afin d’entraîner leurs modèles d’IA. @

Charles de Laubier

« Résumé suffisamment détaillé » : 2025 sera l’année de vérité dans la mise en œuvre de l’AI Act

Le rapport du CSPLA sur la mise en œuvre du règlement européen établissant des règles harmonisées sur l’IA fournit les ingrédients mais… pas la recette ! Le Bureau européen de l’IA, créé par l’AI Act, doit publier prochainement un « modèle européen » à suivre par les Vingt-sept.

Par Anne-Marie Pecoraro*, avocate associée, UGGC Avocats

Le rapport « IA et Transparence des données d’entraînement » (1), publié le 11 décembre 2024 par le Conseil supérieur de la propriété littéraire et artistique (CSPLA), s’inscrit dans la préparation de la mise en œuvre du règlement européen sur l’intelligence artificielle (AI Act) et a pour objectif de clarifier l’interprétation et la portée des dispositions imposant un modèle de « résumé suffisamment détaillé » (2). Ce modèle sera présenté au nom de la France dans le cadre du processus d’adoption d’un modèle européen par le Bureau européen de l’IA (AI Office), autorité créée par l’AI Act et chargée d’accompagner les fournisseurs d’IA dans leur mise en conformité. La publication du modèle européen est attendue pour janvier 2025.

Transparence des données d’entraînement
La collecte de données de qualité, notamment de données culturelles, est d’une importance stratégique pour les fournisseurs d’IA, puisque les systèmes d’IA ont besoin d’ingurgiter de grandes quantités de données, leur servant de modèles dans leurs productions. Or, des données contenant des créations protégées par un droit de propriété intellectuelle peuvent avoir été obtenues sans autorisation ou sans tenir compte d’un « opt-out », et avoir été effectivement exploitées. Il en va de même concernant des données personnelles (posts Facebook, Instagram, …) potentiellement utilisées pour l’entraînement de modèles d’IA. L’enjeu est alors d’avoir accès à l’information sur les données d’entraînement utilisées par une IA, pour bien des raisons et notamment ouvrir une visibilité aux ayants droits dont des données et/ou créations auraient été mobilisées, quelles qu’en soient les modalités.
Pour ce faire, les fournisseurs d’IA sont désormais soumis à une obligation de transparence qui se concrétise par la mise en place d’une politique de conformité, ainsi que par la mise à disposition au public d’un « résumé suffisamment détaillé » (sufficiently detailed summary) des contenus utilisés pour l’entraînement du modèle d’IA. Ce résumé permet le développement d’une IA de confiance souhaitée au niveau européen (3), en remédiant aux difficultés rencontrées par les titulaires de droits, confrontés à une charge de la preuve disproportionnée concernant l’utilisation de leurs contenus. Pour autant, le résumé doit répondre aux enjeux de la création d’un marché dynamique et équitable de l’IA. Ce qui impose un compromis pour restreindre la quantité d’informations mise à disposition afin de protéger le secret des affaires, moteur d’innovation pour les fournisseurs d’intelligence artificielle. (suite)

La mission à l’origine du rapport approuvé par le CSPLA (4) rappelle à ce titre qu’il convient de « donner à la transparence les conséquences attendues, à savoir créer un marché et permettre la rémunération des contenus » (5). Il s’appuie sur deux principaux points pour justifier son modèle de résumé.
En premier lieu, l’obligation de mettre en place une politique de conformité et celle de mettre à disposition du public un résumé suffisamment détaillé sont indissociables en ce qu’elles participent au même objectif de transparence. A ce titre, et par souci de cohérence avec le « codes de bonne pratique » (code of practice) attendu auprès du bureau de l’IA, la mission considère que la politique de conformité devrait apparaître, au moins dans ses grandes lignes, dans le résumé. La mission explicite certains des principaux éléments de conformité qui devraient figurer dans le résumé. Elle souligne que l’AI Act exige explicitement que la politique de conformité inclut l’« identification et le respect (…) des réserves de droits exprimées conformément à l’article 4, paragraphe 3, de la directive [« Copyright » de 2019 (6)] » (7), mécanisme dont les faiblesses ont été éclairées lors de la récente décision du tribunal régional d’Hambourg dans l’affaire « LAION c/ Robert Kneschke» (8).

Fouille de textes et de données (TDM)
Pour mémoire, le dispositif de ces articles que nous avons commenté (9) permet aux titulaires de droits de s’opposer à la fouille de textes et de données si les œuvres et autres objets protégés ont été réservés « par leurs titulaires de droits de manière appropriée, notamment par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne ». Or, le tribunal allemand a notamment validé l’application des exceptions de « fouille de textes et de données » (TDM) pour l’entraînement des systèmes d’IA. D’autre part, le tribunal allemand a pour la première fois en Europe établi un précédent concernant l’exception de TDM en insistant sur la nécessité pour les fournisseurs d’intelligence artificielle d’adopter des technologies pour respecter les clauses de réserve exprimées au titre de l’article 4 de la directive « Copyright ». En abordant la question de l’opt-out et la possibilité pour les détenteurs de droits de s’opposer à l’utilisation de leur contenu, le tribunal d’Hambourg a noté que l’opt-out exprimé en langage naturel pouvait être considéré comme « machine-lisible », ce qui aura des implications pour la manière dont les « optout » sont formulés et reconnus à l’avenir. Par conséquent, omettre de mentionner la clause de réserve de droits dans le résumé reviendrait à réduire la portée de l’obligation de transparence (10).

Détail du résumé et secret des affaires
Par ailleurs, le modèle de résumé devrait inciter les fournisseurs à préciser les protocoles reconnus par les « moissonneurs » de données qu’ils utilisent, que ce soit directement ou via des tiers et lorsqu’il s’agit de jeux de données obtenus gratuitement ou moyennant paiement auprès de tiers, et si des mesures ont été mises en place pour garantir que ces données ont été collectées en conformité avec la législation applicable, notamment en vérifiant l’existence d’une autorisation ou d’une licence.
En second lieu, le modèle de résumé doit être pensé afin de garantir un niveau de protection suffisant aux titulaires de droit tout en préservant l’innovation et ainsi conserver l’effet utile du texte. La mission du CSPLA souligne que la finalité du résumé telle que rappelée dans les considérants du règlement est d’« aider les parties ayant des intérêts légitimes, y compris les titulaires de droit d’auteur, à exercer et à faire respecter les droits que leur confère la législation de l’Union », sans pour autant porter atteinte au secret des affaires. A ce titre, le degré de détail du résumé doit s’apprécier au regard de cet objectif et de cette limite, afin de garantir l’effet utile du texte (11).
Pour garantir l’effet utile du résumé, le mission propose dans son rapport une approche graduée, ajustant le niveau de détail selon la nature des contenus, tout en veillant à préserver un équilibre avec le respect du secret des affaires. A ce titre, la mission estime que l’information relative aux contenus et le degré détail attendu est fonction du degré de fiabilité des sources. Pour les contenus libres de droit, ainsi que les contenus relevant d’arrangements contractuels, des informations générales peuvent suffire. Pour les autres contenus protégés, la mission estime que le secret des affaires ne saurait justifier de se borner à transmettre la liste des principales sources et donc ne pas transmettre la liste des URL (12), à savoir des adresses des sites web moissonnés. La mission souligne que l’AI Act insiste sur la nécessité de fournir un résumé complet pour permettre aux parties ayant des intérêts légitimes, comme les titulaires de droits d’auteur, d’exercer et de faire respecter leurs droits (13). Si le secret des affaires peut limiter le niveau de détail technique, il ne peut réduire le résumé au point de le rendre inefficace. Ainsi, la mission énonce comme essentielles certaines informations, telles que les URL des sites Internet d’où proviennent les données récupérées, la date de moissonnage, ainsi que la taille et le type de données utilisées. Toutefois, elle précise que des informations plus détaillées, comme les modalités d’utilisation des contenus (par exemple, méthode de filtrage ou tokenisation), relèvent du secret des affaires et ne doivent pas être divulguées dans le résumé public. Néanmoins, le secret des affaires ayant ses limites, ces informations pourront être divulguées dans le cadre d’une réclamation.
Le rapport du CSPLA se base notamment sur l’inopposabilité du secret des affaires au autorités judiciaires et administratives. A ce titre, la Cour de justice de l’Union européenne (CJUE) a considéré dans son arrêt « Dun&Bradstreet Austria GmbH » (14) que le secret des affaires ne saurait conduire à écarter le droit d’un individu, au titre du règlement européen sur la protection des données (RGPD) de comprendre une décision qui l’affecte. Pour la mission, cette solution est transposable aux dispositions de droit d’auteur issues des textes européens : le secret des affaires ne peut conduire, en vidant toute substance le résumé suffisamment détaillé, à écarter le droit qu’un titulaire de droits tire de l’AI Act à disposer d’éléments pouvant l’aider « à exercer et à faire respecter les droits que leur confère la législation de l’Union [européenne] ».
La mission souligne que si le Bureau de l’IA, lors de ses vérifications, n’a pas à examiner chaque œuvre ou contenu protégé individuellement pour contrôler la conformité des résumés fournis, l’AI Act n’interdit pas qu’un résumé inclut une liste des contenus protégés ou moissonnés, à condition que cette liste demeure globalement complète (15). L’exhaustivité de cette liste pourrait et devrait également être contrôlée dans le cadre d’une réclamation.

Droit d’auteur et données personnelles
Ainsi, pour la mission du CSPLA, il s’agit au stade du résumé public d’identifier les sources collectées pour l’entraînement de l’IA, mais pas encore d’explorer comment ces sources ont été utilisées, tenant compte du secret des affaires. Ces informations pouvant être révélées ultérieurement dans le cadre d’une réclamation, la protection des titulaires de droit demeure assurée. Les ingrédients donc… mais pas la recette. Le rapport du CSPLA confirme la lecture que l’on pouvait faire de l’AI Act, selon laquelle « l’obligation de transparence s’étend bien au-delà des contenus protégés par le droit d’auteur et les droits voisins » (16), et intègre notamment les données à caractère personnel. @

* Anne-Marie Pecoraro est avocate spécialisée en droit de
la propriété intellectuelle, des médias et des technologies.

Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet.

Exception de Text and Data Mining
Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés. Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur prochaine du règlement européen sur l’intelligence artificielle – l’AI Act dont le texte final (1) a été signé le 13 juin 2024 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles.

En effet, l’article 53 et l’annexe XI de l’AI Act imposent, entre autres, aux fournisseurs de modèles d’IA à usage général (2) de mettre à disposition des informations sur les données utilisées pour l’entraînement de ces modèles, au moyen d’un document-type qui sera mis à disposition par le bureau de l’IA (AI Office). Ils doivent notamment indiquer comment ces données ont été obtenues et sélectionnées, ainsi que toutes les mesures prises pour détecter les sources de données inadéquates. Pour pouvoir se conformer de manière sereine à ces nouvelles exigences (3), il est indispensable de s’assurer que les données d’entraînement ont été récupérées et collectées dans le respect des droits de propriété intellectuelle et du RGPD, sous peine de risquer des actions en contrefaçon ou des procédures de sanction devant les autorités de contrôle (4). En effet, le contenu d’un site Internet qu’un acteur entend scrapper (« moissonner ») pour constituer une base de données d’entraînement peut à la fois contenir des données à caractère personnel, mais également être protégé au titre du droit d’auteur (5) ou du droit des bases de données (6). Or, par principe, toute reproduction et utilisation d’un contenu protégé par un droit de propriété intellectuelle nécessite d’obtenir l’autorisation du titulaire des droits concernés. Néanmoins, afin de favoriser le développement de l’IA, le code de la propriété intellectuelle (CPI) a introduit, pour le droit d’auteur et le droit des producteurs de bases de données, les exceptions de fouilles de textes et de données (dites de Text and Data Mining) qui permettent de scrapper des données à des fins d’entraînement des modèles, sous réserve de respecter un certain nombre de conditions. Il y a en réalité deux régimes : la fouille de textes et de données à des fins de recherche scientifique (7) et celle à des fins diverses (8).
L’exception de fouille à des fins de recherches scientifique présente l’avantage d’être un droit absolu (le titulaire des droits ne peut pas s’y opposer), sous réserve que l’accès aux données soit réalisé de manière licite (9). Néanmoins, son périmètre est relativement restreint puisque seuls peuvent s’en prévaloir certains acteurs limitativement énumérés (10). La plupart des fournisseurs de systèmes d’IA ne peut donc pas mobiliser cette exception et doit se rabattre sur l’exception générale dite à des fins diverses. Pour pouvoir invoquer le bénéfice de cette exception générale, le fournisseur de système d’IA doit accéder aux données de manière licite et s’assurer que le titulaire des droits de propriété intellectuelle ne s’y est pas opposé.

« Moissonnage » et données personnelles
Les textes précisent que l’opposition du titulaire des droits « n’a pas à être motivée et peut être exprimée par tout moyen », notamment « au moyen de procédés lisibles par machine, y compris des métadonnées, et par le recours à des conditions générales d’utilisation » (11). Pour l’opposition via des procédés techniques, plusieurs outils existent (Robot.txt, AI.txt, TDMRep, …). En pratique, cela signifie que pour pouvoir scrapper les données des sites Internet à des fins d’entraînement des modèles, les fournisseurs de systèmes d’IA ne doivent pas contourner les éventuels dispositifs de protection existants (par exemple un accès restreint par un compte utilisateur) et doivent s’assurer, au moment de l’extraction des données, que les conditions générales d’utilisation (CGU) et/ou mentions légales du site Internet ne contiennent pas de clause interdisant l’extraction des données et que les métadonnées du site Internet n’expriment pas non plus une telle interdiction. L’AI Act confirme ce dernier point (12).
Lorsqu’un titulaire de droits s’est opposé à l’extraction de ses données, le fournisseur de système d’IA n’a d’autre choix que d’obtenir une autorisation expresse (13) au moyen d’un accord de licence ou de partenariat, comme ont récemment pu le faire OpenAI avec Le Monde, Die Welt et El País (14). Une fois ces vérifications opérées, le fournisseur de système d’IA devra suivre des étapes supplémentaires si le contenu qu’il souhaite « moissonner » contient des données à caractère personnel, afin de respecter le RGPD.

Base légale de l’intérêt légitime
Ces derniers mois, la Cnil a publié plusieurs fiches pour guider les fournisseurs de systèmes d’IA (15) au sein desquelles elle clarifie comment appliquer les principes clefs aux spécificités de l’IA. Elle y admet qu’il est possible de fonder les traitements d’entraînement des modèles d’IA sur la base légale de l’intérêt légitime, notamment lorsque les données sont collectées à partir de sources publiques (16), sous réserve de mener une analyse au cas par cas permettant de documenter la légitimité de l’intérêt poursuivi, sa nécessité et le fait qu’il n’y a pas d’atteinte disproportionnée aux intérêts, droits et libertés des personnes. Pour autant, en juin 2024, Noyb a porté plainte – auprès de onze « Cnil » en Europe – contre Meta dont il conteste la faculté de se fonder sur l’intérêt légitime pour récupérer les données de Facebook et Instagram afin d’entraîner ses modèles d’IA. Dans l’attente, Meta a stoppé son projet (17).
La première étape avant de scrapper des données à caractère personnel est de définir la finalité du traitement, à partir de laquelle l’analyse de conformité aux principes de protection des données personnelles pourra être réalisée. A partir de cette finalité (créer une base de données afin d’entraîner des modèles d’IA permettant d’évaluer l’appréciation d’œuvres par le public, développer un LLM capable de répondre à des questions, générer du texte, effectuer des résumés, etc,…), le fournisseur de modèles d’IA devra s’assurer du respect du principe de minimisation, en ne collectant que les données pertinentes et nécessaires pour atteindre son objectif. Concrètement, cela signifie qu’il doit s’interroger en amont sur les catégories de données nécessaires pour l’entraînement du modèle d’IA. En pratique, il devra définir les catégories de données à collecter et mettre en place des filtres permettant d’exclure la collecte de certaines données. Dans sa fiche dédiée au web scraping (18), la Cnil précise que dans l’hypothèse où des données non pertinentes seraient collectées malgré les filtres mis en place, il convient de supprimer ces données, immédiatement après leur collecte ou dès elles ont été identifiées. Elle appelle également à la prudence sur la collecte automatique de données sensibles en invitant les fournisseurs à appliquer des filtres permettant d’écarter la collecte de données sensibles (19) non pertinentes ou à exclure de leurs activités de scraping certains sites comportant par nature ce type de données.
Respecter le RGPD suppose, par ailleurs, d’informer les personnes concernées et de faciliter l’exercice de leurs droits. La Cnil reconnaît (20) qu’en cas de collecte parweb scraping, une information individuelle des personnes pourrait, dans certains cas, être disproportionnée et donc non obligatoire. Elle recommande alors au fournisseur du système d’IA de fournir une information générale (par exemple au sein de sa politique de confidentialité) contenant notamment les catégories de sites sources utilisés avec des liens hypertextes vers ceux-ci, en proposant un modèle dédié. Pour les droits des personnes, elle rappelle qu’un responsable du traitement n’a pas à conserver ou collecter des informations supplémentaires qui ne lui sont pas nécessaires dans le seul but de permettre l’exercice des droits. La Cnil propose néanmoins des exemples de mesures que les fournisseurs de modèles d’IA pourraient mettre en place pour faciliter l’exercice des droits (comme la conservation de métadonnées ou d’informations sur la source des données pour faciliter la recherche d’une personne au sein de la base ou l’indication aux personnes des données à fournir pour les identifier).
La Cnil propose enfin de mettre en place des mesures supplémentaires pour garantir l’équilibre attendu de ces traitements basés sur l’intérêt légitime. Certaines mesures découlant des règles précédemment citées semblent réalisables : exclure par défaut la collecte à partir de certains sites contenant des données intrusives ; prévoir la possibilité de s’opposer au traitement de manière discrétionnaire ; appliquer des procédés d’anonymisation ou de pseudonymisation après la collecte des données. D’autres semblent moins pragmatiques.

AI Office : recommandations très attendues
Certains acteurs pourraient ainsi saisir l’opportunité de remonter leurs questionnements, difficultés pratiques, appréciation des règles dans le cadre de la consultation publique à laquelle sont soumises certaines fiches jusqu’au 15 septembre 2024 (21) ou répondre au questionnaire (22). A l’aune de l’entrée en vigueur de l’AI Act, les fournisseurs de modèles d’IA à usage général attendront donc les précieuses recommandations et modèles du bureau de l’IA, tout récemment créé (23), sur les documents à produire pour les sources de données d’entraînement, afin de leur permettre d’engager les travaux nécessaires à la compilation de ces informations. @