Titulaires de droit et entraînement des IA : entre droit d’auteur recomposé et procès en série

Pendant que les systèmes d’IA prolifèrent en s’entraînant sur de quantités de données multimédias, les procès se multiplient dans le monde entre auteurs de contenus protégés et IA génératives – oscillant entre piratage, fair use ou encore exception pour « fouille de textes et de données ».

Par Christiane Féral-Schuhl et Richard Willemant, avocats associés, cabinet Féral

C’est un sujet à donner des sueurs froides aux titulaires de droit d’auteur ! Avec l’entrée en vigueur du règlement européen du 13 juin 2024 sur l’intelligence artificielle (IA) – l’AI Act (1) – et l’articulation des nouveaux usages de modèles d’IA avec les principes juridiques établis, les juridictions du monde entier naviguent à vue, tiraillées entre l’impératif d’innovation et le respect du droit d’auteur.

Nécessaire autorisation des titulaires de droit
Les données seraient-elles véritablement « l’or noir » du XXIe siècle ? Leur collecte et leur utilisation à des fins d’entraînement des systèmes d’IA semblent confirmer leur valeur économique stratégique à l’ère du tout-numérique. Or, la collecte massive et automatisée (aussi appelée « moissonnage » ou « web scraping ») de données accessibles sur les réseaux sociaux – comme cela a été récemment annoncé par la société Meta Platforms concernant les utilisateurs d’Instagram et de Facebook – et plus globalement sur Internet, comporte le risque de traiter des données protégées. Et ce, à l’image de celles concernant des œuvres originales, pour lesquelles une autorisation du titulaire de droit est requise.
La question est de savoir dans quelles conditions le fournisseur de système d’IA peut avoir recours à des données d’entraînement sur lesquelles des titulaires détiennent des droits d’auteur. En France, la protection des œuvres est très claire : « Toute représentation ou reproduction intégrale ou partielle faite sans le consentement de l’auteur ou de ses ayants droit ou ayants cause est illicite » (2), dit le code de la propriété intellectuelle (CPI). En principe, toute utilisation non autorisée d’un contenu protégé par le droit d’auteur à des fins d’entraînement d’un système d’IA est donc illicite.
Ainsi, les procédures engagées contre des fournisseurs de tels systèmes d’IA (suite)

, afin de faire reconnaître une violation de droits d’auteur, se multiplient. En mars 2025, le Syndicat national de l’édition (SNE), la Société des gens de lettres (SGDL) et le Syndicat national des auteurs et des compositeurs (Snac) ont agi à l’encontre de Meta Platforms car la société américaine aurait utilisé massivement des œuvres protégées sans autorisation pour entraîner son modèle d’IA (3). De l’autre côté du globe, les juges chinois ont reconnu une atteinte au droit d’auteur protégeant le personnage japonais « Ultraman » par un fournisseur de système d’IA qui permettait à ces utilisateurs de générer des illustrations très similaires au personnage protégé (4).
Aux Etats-Unis, un jugement sommaire (« summary judgment ») retient notre attention : Ross Intelligence, une entreprise développant un outil juridique basé sur l’IA, a souhaité utiliser le contenu de la base de données Westlaw, appartenant au groupe canadien d’agence de presse et d’édition Thomson Reuters, pour entraîner son modèle d’IA. N’ayant pas obtenu de licence, elle s’est alors tournée vers la société LegalEase afin d’acheter des « bulk memos », à savoir des compilations de questions-réponses juridiques s’inspirant du contenu de Westlaw. Ross Intelligence a ainsi pu commercialiser un système d’IA proposant des fonctionnalités très similaires à celles de Westlaw. Saisie par Thomson Reuters pour violation de son droit d’auteur, la justice a reconnu une reproduction substantielle des œuvres protégées.
Ross Intelligence a ensuite tenté, sans succès, d’invoquer l’exception de « fair use » (5), sa démonstration échouant en raison de l’effet concurrentiel sur le marché de son IA et de l’absence d’objectif véritablement distinct entre les deux solutions. Si cette décision reste pour l’instant provisoire, elle n’en est pas pour le moins éclairante dans un contexte où les prises de position du US Copyright Office (USCO), lequel semble privilégier la protection des titulaires de droit, exacerbent les tensions avec l’administration Trump, pro-innovation (6).

Fouille de textes et de données : une brèche
L’absence d’autorisation préalable cristallise donc les contentieux entre fournisseur de système d’IA et titulaire de droits, et ce, alors que l’utilisation d’œuvres protégées représente une forte valeur ajoutée lors de l’entraînement des grands modèles de langage (LLM), et en particulier pour les IA génératives, désormais perçues comme de véritables outils de substitution aux créateurs humains (7). Il existe toutefois dans l’Union européenne une exception à l’obligation d’obtenir l’autorisation préalable du titulaire de droits pour utiliser des données protégées. En application de la directive européenne « Droit d’auteur et droits voisins dans le marché unique numérique » du 17 avril 2019, dite directive « Copyright » (8), le droit français a introduit l’article L.122-5- 3 du CPI. Celui-ci autorise « des copies ou reproductions numériques d’œuvres auxquelles il a été accédé de manière licite […] en vue de fouilles de textes et de données menées à bien par toute personne, quelle que soit la finalité de la fouille […] ».

Fouille de textes et de données : une brèche
Concrètement, cette exception de fouilles de textes et de données – en anglais, Text and Data Mining (TDM) – garantit au fournisseur de système d’IA le droit de « moissonner » un grand volume de données librement accessibles afin d’entraîner son modèle d’IA. Cette exception a été reconnue en Allemagne dans une affaire opposant un photographe (Robert Kneschke) à une organisation à but non lucratif (LAION), connue pour fournir des jeux de données d’entraînement (9). Le litige est survenu après que le photographe eut découvert l’une de ses œuvres, disponible sur une plateforme en ligne, intégrée dans un jeu de données. En application de l’exception de fouilles de textes et de données, aucune violation du droit d’auteur n’a été retenue, malgré l’absence d’autorisation pour la reproduction de la photographie. Bien que fondée sur l’exception de fouilles de textes et de données à des fins de recherche scientifique, cette décision datée du 27 septembre 2024 (10) illustre la stratégie que pourrait adopter le fournisseur de système d’IA pour se défendre contre les revendications des titulaires de droits.
Or, il s’agit de trouver le juste équilibre entre, d’une part, la « protection des titulaires de droits, notamment les artistes », et, d’autre part, la liberté « d’exploration de textes et de données, en particulier par les développeurs d’IA » (11). Ce débat a encore récemment suscité d’intenses polémiques au Royaume-Uni, à la suite d’une consultation menée – de décembre 2024 à février 2025 (12) – par le gouvernement britannique qui a ouvert la voie à l’introduction dans la législation d’une exception similaire. Cependant, les titulaires de droits peuvent choisir de réserver l’exploitation de leurs œuvres protégées, afin d’empêcher leur utilisation au titre de l’exception de la fouille de textes et de données, sauf lorsque celle-ci est réalisée à des fins de recherche scientifique (13). Ce droit d’opposition – également appelé mécanisme d’« opt-out » – est encadré en France par le CPI (14). L’opposition n’a pas à être motivée et peut être exprimée par tout moyen. S’agissant de contenus mis à la disposition du public en ligne, elle peut (sans que cette liste soit limitative) se manifester par l’intégration de métadonnées lisibles par machine, ou encore par une mention dans les conditions générales d’utilisation d’un site Internet ou d’un service. Pour pouvoir bénéficier de l’exception, le fournisseur de système d’IA doit donc non seulement accéder licitement aux données, mais également s’assurer qu’aucune opposition n’a été exprimée. Dans le prolongement, on note que le respect des règles en matière de droit d’auteur par le fournisseur d’IA est désormais inscrit dans l’AI Act (15). En pratique, cela implique que, pour moissonner les données de sites Internet à des fins d’entraînement de modèles d’IA, le fournisseur ne doit pas contourner d’éventuels dispositifs de protection, tels qu’un accès restreint via un compte utilisateur, et doit vérifier, au moment de l’extraction, que ni les conditions générales d’utilisation ni les mentions légales ne contiennent de clause interdisant l’extraction des données. Il doit également s’assurer que les métadonnées du site en ligne ne traduisent pas une telle interdiction. Ainsi, lorsqu’un titulaire de droits s’est valablement opposé à l’extraction de ses contenus, le fournisseur d’IA ne peut procéder à leur utilisation sans avoir obtenu une autorisation expresse, par le biais d’un accord de licence ou de partenariat (16), à l’instar de l’accord entre la société OpenAI et les journaux Le Monde, Die Welt et El País (17).
Enfin, le fournisseur de système d’IA est désormais soumis à une obligation de transparence : afin de permettre aux titulaires de droits de s’assurer que les données utilisées pour l’entraînement des modèles IA ont été collectées dans le respect des règles de droits d’auteur, le fournisseur doit établir un « résumé suffisamment détaillé » des contenus utilisés pour l’entraînement. Ce résumé est destiné à être publié dans la politique de conformité, mais doit néanmoins veiller à préserver le secret des affaires ainsi que la confidentialité de certaines informations (18). Doit notamment être indiqués les URL des sites Internet sources, la date de moissonnage, ainsi que la nature et le volume des données exploitées. En revanche, les informations plus précises relatives aux modalités techniques d’utilisation des contenus, par exemple des procédés de filtrage, ne sont pas tenues d’être divulguées.

Multiplication des contentieux « IA »
Si les mécanismes actuels permettent, en principe, de garantir le respect des droits d’auteur dans un cadre juridique en constante évolution, la multiplication des contentieux visant les entreprises pionnières dans le domaine de l’IA met en lumière la complexité de concilier protection effective des droits d’auteur et valorisation économique des données. Une illustration vient de nous en être donnée par la Cour d’appel de Paris qui, le 7 mai 2025 (19), a sanctionné pour concurrence déloyale l’exploitant d’une plateforme d’IA juridique (Doctrine.fr éditée par Forseti) qui a constitué de manière illicite sa base de données juridiques. @

Edition Multimédi@

Economie numérique et Nouveaux médias

Titulaires de droit et entraînement des IA : entre droit d’auteur recomposé et procès en série