Le rapport du CSPLA sur la mise en œuvre du règlement européen établissant des règles harmonisées sur l’IA fournit les ingrédients mais… pas la recette ! Le Bureau européen de l’IA, créé par l’AI Act, doit publier prochainement un « modèle européen » à suivre par les Vingt-sept.
Par Anne-Marie Pecoraro*, avocate associée, UGGC Avocats
Le rapport « IA et Transparence des données d’entraînement » (1), publié le 11 décembre 2024 par le Conseil supérieur de la propriété littéraire et artistique (CSPLA), s’inscrit dans la préparation de la mise en œuvre du règlement européen sur l’intelligence artificielle (AI Act) et a pour objectif de clarifier l’interprétation et la portée des dispositions imposant un modèle de « résumé suffisamment détaillé » (2). Ce modèle sera présenté au nom de la France dans le cadre du processus d’adoption d’un modèle européen par le Bureau européen de l’IA (AI Office), autorité créée par l’AI Act et chargée d’accompagner les fournisseurs d’IA dans leur mise en conformité. La publication du modèle européen est attendue pour janvier 2025.
Transparence des données d’entraînement
La collecte de données de qualité, notamment de données culturelles, est d’une importance stratégique pour les fournisseurs d’IA, puisque les systèmes d’IA ont besoin d’ingurgiter de grandes quantités de données, leur servant de modèles dans leurs productions. Or, des données contenant des créations protégées par un droit de propriété intellectuelle peuvent avoir été obtenues sans autorisation ou sans tenir compte d’un « opt-out », et avoir été effectivement exploitées. Il en va de même concernant des données personnelles (posts Facebook, Instagram, …) potentiellement utilisées pour l’entraînement de modèles d’IA. L’enjeu est alors d’avoir accès à l’information sur les données d’entraînement utilisées par une IA, pour bien des raisons et notamment ouvrir une visibilité aux ayants droits dont des données et/ou créations auraient été mobilisées, quelles qu’en soient les modalités.
Pour ce faire, les fournisseurs d’IA sont désormais soumis à une obligation de transparence qui se concrétise par la mise en place d’une politique de conformité, ainsi que par la mise à disposition au public d’un « résumé suffisamment détaillé » (sufficiently detailed summary) des contenus utilisés pour l’entraînement du modèle d’IA. Ce résumé permet le développement d’une IA de confiance souhaitée au niveau européen (3), en remédiant aux difficultés rencontrées par les titulaires de droits, confrontés à une charge de la preuve disproportionnée concernant l’utilisation de leurs contenus. Pour autant, le résumé doit répondre aux enjeux de la création d’un marché dynamique et équitable de l’IA. Ce qui impose un compromis pour restreindre la quantité d’informations mise à disposition afin de protéger le secret des affaires, moteur d’innovation pour les fournisseurs d’intelligence artificielle. (suite)
La mission à l’origine du rapport approuvé par le CSPLA (4) rappelle à ce titre qu’il convient de « donner à la transparence les conséquences attendues, à savoir créer un marché et permettre la rémunération des contenus » (5). Il s’appuie sur deux principaux points pour justifier son modèle de résumé.
• En premier lieu, l’obligation de mettre en place une politique de conformité et celle de mettre à disposition du public un résumé suffisamment détaillé sont indissociables en ce qu’elles participent au même objectif de transparence. A ce titre, et par souci de cohérence avec le « codes de bonne pratique » (code of practice) attendu auprès du bureau de l’IA, la mission considère que la politique de conformité devrait apparaître, au moins dans ses grandes lignes, dans le résumé. La mission explicite certains des principaux éléments de conformité qui devraient figurer dans le résumé. Elle souligne que l’AI Act exige explicitement que la politique de conformité inclut l’« identification et le respect (…) des réserves de droits exprimées conformément à l’article 4, paragraphe 3, de la directive [« Copyright » de 2019 (6)] » (7), mécanisme dont les faiblesses ont été éclairées lors de la récente décision du tribunal régional d’Hambourg dans l’affaire « LAION c/ Robert Kneschke» (8).
Fouille de textes et de données (TDM)
Pour mémoire, le dispositif de ces articles que nous avons commenté (9) permet aux titulaires de droits de s’opposer à la fouille de textes et de données si les œuvres et autres objets protégés ont été réservés « par leurs titulaires de droits de manière appropriée, notamment par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne ». Or, le tribunal allemand a notamment validé l’application des exceptions de « fouille de textes et de données » (TDM) pour l’entraînement des systèmes d’IA. D’autre part, le tribunal allemand a pour la première fois en Europe établi un précédent concernant l’exception de TDM en insistant sur la nécessité pour les fournisseurs d’intelligence artificielle d’adopter des technologies pour respecter les clauses de réserve exprimées au titre de l’article 4 de la directive « Copyright ». En abordant la question de l’opt-out et la possibilité pour les détenteurs de droits de s’opposer à l’utilisation de leur contenu, le tribunal d’Hambourg a noté que l’opt-out exprimé en langage naturel pouvait être considéré comme « machine-lisible », ce qui aura des implications pour la manière dont les « optout » sont formulés et reconnus à l’avenir. Par conséquent, omettre de mentionner la clause de réserve de droits dans le résumé reviendrait à réduire la portée de l’obligation de transparence (10).
Détail du résumé et secret des affaires
Par ailleurs, le modèle de résumé devrait inciter les fournisseurs à préciser les protocoles reconnus par les « moissonneurs » de données qu’ils utilisent, que ce soit directement ou via des tiers et lorsqu’il s’agit de jeux de données obtenus gratuitement ou moyennant paiement auprès de tiers, et si des mesures ont été mises en place pour garantir que ces données ont été collectées en conformité avec la législation applicable, notamment en vérifiant l’existence d’une autorisation ou d’une licence.
• En second lieu, le modèle de résumé doit être pensé afin de garantir un niveau de protection suffisant aux titulaires de droit tout en préservant l’innovation et ainsi conserver l’effet utile du texte. La mission du CSPLA souligne que la finalité du résumé telle que rappelée dans les considérants du règlement est d’« aider les parties ayant des intérêts légitimes, y compris les titulaires de droit d’auteur, à exercer et à faire respecter les droits que leur confère la législation de l’Union », sans pour autant porter atteinte au secret des affaires. A ce titre, le degré de détail du résumé doit s’apprécier au regard de cet objectif et de cette limite, afin de garantir l’effet utile du texte (11).
Pour garantir l’effet utile du résumé, le mission propose dans son rapport une approche graduée, ajustant le niveau de détail selon la nature des contenus, tout en veillant à préserver un équilibre avec le respect du secret des affaires. A ce titre, la mission estime que l’information relative aux contenus et le degré détail attendu est fonction du degré de fiabilité des sources. Pour les contenus libres de droit, ainsi que les contenus relevant d’arrangements contractuels, des informations générales peuvent suffire. Pour les autres contenus protégés, la mission estime que le secret des affaires ne saurait justifier de se borner à transmettre la liste des principales sources et donc ne pas transmettre la liste des URL (12), à savoir des adresses des sites web moissonnés. La mission souligne que l’AI Act insiste sur la nécessité de fournir un résumé complet pour permettre aux parties ayant des intérêts légitimes, comme les titulaires de droits d’auteur, d’exercer et de faire respecter leurs droits (13). Si le secret des affaires peut limiter le niveau de détail technique, il ne peut réduire le résumé au point de le rendre inefficace. Ainsi, la mission énonce comme essentielles certaines informations, telles que les URL des sites Internet d’où proviennent les données récupérées, la date de moissonnage, ainsi que la taille et le type de données utilisées. Toutefois, elle précise que des informations plus détaillées, comme les modalités d’utilisation des contenus (par exemple, méthode de filtrage ou tokenisation), relèvent du secret des affaires et ne doivent pas être divulguées dans le résumé public. Néanmoins, le secret des affaires ayant ses limites, ces informations pourront être divulguées dans le cadre d’une réclamation.
Le rapport du CSPLA se base notamment sur l’inopposabilité du secret des affaires au autorités judiciaires et administratives. A ce titre, la Cour de justice de l’Union européenne (CJUE) a considéré dans son arrêt « Dun&Bradstreet Austria GmbH » (14) que le secret des affaires ne saurait conduire à écarter le droit d’un individu, au titre du règlement européen sur la protection des données (RGPD) de comprendre une décision qui l’affecte. Pour la mission, cette solution est transposable aux dispositions de droit d’auteur issues des textes européens : le secret des affaires ne peut conduire, en vidant toute substance le résumé suffisamment détaillé, à écarter le droit qu’un titulaire de droits tire de l’AI Act à disposer d’éléments pouvant l’aider « à exercer et à faire respecter les droits que leur confère la législation de l’Union [européenne] ».
La mission souligne que si le Bureau de l’IA, lors de ses vérifications, n’a pas à examiner chaque œuvre ou contenu protégé individuellement pour contrôler la conformité des résumés fournis, l’AI Act n’interdit pas qu’un résumé inclut une liste des contenus protégés ou moissonnés, à condition que cette liste demeure globalement complète (15). L’exhaustivité de cette liste pourrait et devrait également être contrôlée dans le cadre d’une réclamation.
Droit d’auteur et données personnelles
Ainsi, pour la mission du CSPLA, il s’agit au stade du résumé public d’identifier les sources collectées pour l’entraînement de l’IA, mais pas encore d’explorer comment ces sources ont été utilisées, tenant compte du secret des affaires. Ces informations pouvant être révélées ultérieurement dans le cadre d’une réclamation, la protection des titulaires de droit demeure assurée. Les ingrédients donc… mais pas la recette. Le rapport du CSPLA confirme la lecture que l’on pouvait faire de l’AI Act, selon laquelle « l’obligation de transparence s’étend bien au-delà des contenus protégés par le droit d’auteur et les droits voisins » (16), et intègre notamment les données à caractère personnel. @
* Anne-Marie Pecoraro est avocate spécialisée en droit de
la propriété intellectuelle, des médias et des technologies.