Tournant judiciaire aux Etats-Unis en faveur du droit d’auteur d’artistes contre des IA génératives

Dans la torpeur de l’été, le juge d’un tribunal de Californie a donné raison à des artistes qui ont porté plainte contre des IA génératives – Stable Diffusion de Stability AI en tête – qui utilisent leurs images sans autorisation et au mépris du copyright. Ce jugement constitue une étape majeure.

C’est une première victoire des artistes aux Etats-Unis contre les IA génératives qui utilisent des milliards d’images pour répondre aux requêtes de millions d’internautes dans le monde. Le juge fédéral américain William Orrick (photo), officiant au tribunal du district nord de la Californie, a décidé le 12 août 2024 que les plaintes des artistes – contre les sociétés Stability AI (avec son IA générative Stable Diffusion), Midjourney (avec son IA générative du même nom), Runway AI (IA génératives multimédias à l’aide de DreamUp) et DeviantArt (réseau social de créatifs) – étaient recevables.

Stability, Midjourney, Runway, DeviantArt
Dans son ordonnance de 33 pages (1), le juge Orrick reconnaît qu’il y a violation du droit d’auteur et de marques déposées dès lors que les IA génératives ont été construites – lors de leur entraînement – sur des milliards d’images protégées et sans l’autorisation de leurs auteurs et artistes. La plainte examinée a été déposée l’an dernier et se focalise sur la grande base de données LAION – Large-scale Artificial Intelligence Open Network (2) – qui a été constituée à partir de 5 milliards d’images, lesquels auraient été récupérées sur Internet et exploitées par Stability AI, Midjourney, Runway AI et DeviantArt.
Les artistes à l’origine de la plainte affirment que « l’ensemble des données “LAION-5B” contient seulement des URL d’images d’entraînement, et non pas les images réelles d’entraînement ». Par conséquent, affirment-ils, « quiconque souhaite utiliser LAION-5B pour former son propre modèle d’apprentissage automatique doit d’abord acquérir des copies des images de formation réelles à partir de ses URL en utilisant l’ensemble de données ‘’img2dataset’’ ou un autre outil similaire ».

En prenant X en grippe, Thierry Breton crée un malaise au sein de la Commission européenne

Dix mois après sa première lettre du 10 octobre 2023 à Elon Musk pour lui rappeler les obligations de X (ex-Twitter) au regard du Digital Services Act (DSA), Thierry Breton lui a envoyé une seconde lettre le 12 août 2024. A force d’insister, le commissaire européen créé un malaise à Bruxelles.

Thierry Breton (photo) outrepasse-t-il ses fonctions de commissaire européen en charge du Marché intérieur ? C’est à se demander, tant le Français – que le président de la République française Emmanuel Macron souhaite voir reconduit dans ses fonctions pour le prochain mandat de la Commission européenne – se distingue en prenant parfois des initiatives sans se concerter avec ses collègues à Bruxelles. Il en va ainsi avec le second courrier en dix mois adressé le 12 août 2024 à Elon Musk pour rappeler à ce dernier les obligations du réseau social X (ex- Twitter) en Europe.

Thierry Breton désavoué face à Elon Musk
« Le timing et la formulation de la lettre n’ont été ni coordonnés ni convenus avec la présidente [Ursula von der Leyen] ou le collège [des commissaires européens] », a déclaré Arianna Podestà, porte-parole en cheffe-adjointe de la Commission européenne, selon sa déclaration faite au journal Le Monde. Et d’assurer : « La lettre [de Thierry Breton] ne voulait en aucun cas interférer avec les élections américaines. L’UE n’interfère pas dans des élections » (1). Pourtant, le courrier à Elon Musk daté du 12 août et signé par le commissaire européen au Marché intérieur fait explicitement référence à « la diffusion prévue sur votre plateforme X [en s’adressant à Elon Musk, ndlr] d’une conversation en direct entre un candidat à la présidence américaine et vous-même, qui sera également accessible aux utilisateurs de l’UE ».
Et Thierry Breton d’enfoncer le clou en mettant en garde le propriétaire de la plateforme X : « Nous surveillons les risques potentiels dans l’UE associés à la diffusion de contenu pouvant inciter à la violence, à la haine et au racisme en lien avec un événement politique – ou sociétal – majeur à travers le monde, y compris des débats et des interviews dans le contexte d’élections [en l’occurrence ici des élections américaines, ndlr] ». Dans cette lettre que la présidente de la Commission européenne ne cautionne pas, il est fait ainsi clairement référence à l’interview, prévu le lendemain, que Elon Musk fera lui-même de Donald Trump, candidat Républicain à l’élection présidentielle. L’« interférence » du commissaire européen Thierry Breton aurait pu être considérée comme de l’ingérence de la Commission européenne dans les affaires intérieures des Etats-Unis s’il n’y avait pas eu la mise au point de la porte-parole en cheffe-adjointe de l’exécutif européen. Désavoué par les services de la présidente Ursula von der Leyen, laquelle a été réélue le 18 juillet dernier par les eurodéputés pour un nouveau mandat, Thierry Breton a aussi reçu une réplique cinglante de la part du propriétaire de X.

Le règlement européen « Internet ouvert » a presque dix ans : la neutralité du Net est en danger

Entre les IA génératives qui rêvent de remplacer les moteurs de recherche et les opérateurs télécoms qui militent pour une taxe sur les Gafam utilisant leurs réseaux, la neutralité d’Internet est plus que jamais menacée. Les régulateurs résisteront-ils à la pression des « telcos » et des « big tech » ? La neutralité d’Internet est prise en étaux entre l’intelligence artificielle et les opérateurs télécoms. Il y a dix ans, la notion de « neutralité de l’Internet » était adoptée pour la première fois en séance plénière, lors d’un vote en première lecture de la proposition de règlement établissant des mesures sur le marché unique européen des communications électroniques. Deux amendements retenus introduisaient la définition de « neutralité de l’Internet [comme étant] le principe selon lequel l’ensemble du trafic Internet est traité de façon égale, sans discrimination, limitation ni interférence, indépendamment de l’expéditeur, du destinataire, du type, du contenu, de l’appareil, du service ou de l’application » (1). A l’Internet ouvert, un « Internet fermé » Après des années de tabou puis de débats voire de polémiques sur le sujet (2), le principe de la neutralité d’Internet était enfin sur le point d’être gravée dans le marbre de la législation européenne. Mais finalement, alors même que le lobby des opérateurs télécoms était vent debout contre cette obligation de « neutralité du Net » et défendant becs et ongles leur droit à pratiquer la « gestion de trafic » et à proposer des « services gérés » (3), cette proposition de règlement n’avait pu être votée avant les élections européennes de mai 2014. C’était il y a dix ans. Là où la Commission européenne de Jean-Claude Juncker s’apprêtait à consacrer la neutralité de l’Internet, ce fut celle de Ursula von der Leyen (photo) – chrétienne-démocrate conservatrice, plutôt hostile à Internet (4) – qui proposera un règlement. Mais celui-ci ne parlera pas explicitement de « neutralité » d’Internet mais d’un Internet « ouvert ». Ce règlement « Internet ouvert » (ou Open Internet), daté du 25 novembre 2015, sera promulgué au Journal Officier de l’Union européenne le 26 novembre suivant (5) et est censé être appliqué depuis 2016 par les Etats membres. Le mot « neutralité » n’apparaît qu’une fois, et encore est-ce pour évoquer dans un considérant de deux lignes la « neutralité technologique », mais en aucun cas la neutralité des réseaux. Or la « garantie d’accès à un Internet ouvert » n’est qu’un succédané du principe de neutralité d’Internet. Certes, l’article 3 du règlement de 2015 garanti cet accès à un « Internet ouvert » : « Les utilisateurs finals ont le droit d’accéder aux informations et aux contenus et de les diffuser, d’utiliser et de fournir des applications et des services et d’utiliser les équipements terminaux de leur choix, quel que soit le lieu où se trouve l’utilisateur final ou le fournisseur, et quels que soient le lieu, l’origine ou la destination de l’information, du contenu, de l’application ou du service, par l’intermédiaire de leur service d’accès à l’Internet ». Mais ce même article permet aux opérateurs télécoms et fournisseurs d’accès à Internet (FAI) de « mettre en œuvre des mesures raisonnables de gestion du trafic ». Le lobby des « telcos » a obtenu gain de cause : la neutralité du Net n’apparaît pas du tout dans le règlement et ils peuvent « gérer le trafic » de leurs réseaux comme ils l’entendent, pour peu que cela soit perçu comme « raisonnable ». Raisonnable ? « Pour être réputées raisonnables, les mesures sont transparentes, non discriminatoires et proportionnées, et elles ne sont pas fondées sur des considérations commerciales, mais sur des différences objectives entre les exigences techniques en matière de qualité de service de certaines catégories spécifiques de trafic » (6). Les FAI doivent « s’abstiennent de bloquer, de ralentir, de modifier, de restreindre, de perturber, de dégrader ou de traiter de manière discriminatoire des contenus, des applications ou des services spécifiques ou des catégories spécifiques de contenus, d’applications ou de services, sauf si nécessaire et seulement le temps nécessaire ». Mais en même temps, ces mêmes acteurs du Net « sont libres de proposer des services […] qui sont optimisés pour des contenus, des applications ou des services spécifiques […] correspondant à un niveau de qualité spécifique ». La notion d’Internet ouvert a en réalité réservé une voie à un Internet fermé. Ces services optimisés ne doivent cependant pas empêcher d’accéder à tous les services de l’Internet, ni les remplacer, ni dégrader la qualité générale des services d’accès à l’Internet pour les internautes (7). Droits fondamentaux et Net Neutrality Si le règlement européen de 2015 a troqué « la neutralité d’Internet » par la notion plus vague de « l’Internet ouvert », il n’en a pas été de même pour l’Organe des régulateurs européens des communications électroniques (Orece, ou Berec en anglais). En publiant le 30 août 2016 ses lignes directrices pour la mise en œuvre du règlement « Internet ouvert », il parle bien de « Net Neutrality » (8). La « Déclaration européenne sur les droits et principes numériques pour la décennie numérique », publiée le 23 janvier 2023 à l’initiative de l’Union européenne (9), consacre clairement, elle aussi, « la neutralité technologique et de l’Internet » (technological and Net Neutrality). Trois mois après, la Commission européenne publie son rapport sur « la mise en œuvre des dispositions du règlement [de 2015 concernant] l’accès à un Internet ouvert » (10), où il est clairement écrit noir sur blanc que « [le règlement] consacre le principe de la neutralité de l’Internet : le trafic Internet devrait être traité sans discrimination, blocage, limitation ou priorité ». Arcep et CSNP veillent à la « neutralité » Des pays ont réhabilité l’expression de « neutralité d’Internet » que le règlement de 2015 a passé sous silence, comme l’a fait la France en transposant le règlement « Internet ouvert » dans la loi « République numérique » du 7 octobre 2016, où elle associe explicitement le principe de neutralité d’Internet à celui d’Internet ouvert, depuis lors inscrit dans le code des postes et des communications électroniques : « La neutralité de l’Internet […] consiste à garantir l’accès à l’Internet ouvert régi par le règlement [de 2015] », précise son article 40 qui charge aussi l’Arcep d’« assurer le respect de la neutralité de l’Internet ». Quant à la Commission supérieure du numérique et des postes (CSNP), instance bicamérale et transpartisane en interaction avec Bercy, « elle étudie les questions relatives à la neutralité de l’Internet » (11). Or, selon les constatations de Edition Multimédi@, la CSNP n’a pas publié d’étude ni d’avis sur la neutralité du Net depuis près de huit ans que la loi lui a confié le soin d’étudier cette question. Contactée, sa secrétaire générale Valérie Montané nous a cependant indiqué que « le sujet de la neutralité d’Internet a été abordé en auditions mais sans donner lieu à un avis ». L’Arcep, elle, a réexprimé haut et fort le 4 juillet dernier son attachement à la neutralité du Net, à l’occasion de la publication de son rapport annuel sur « l’état de l’Internet en France » (12). Dans cette édition 2024, sa présidente de Laure de La Raudière (photo ci-dessus) a consacré son édito à ce sujet en l’intitulant « L’ouverture de l’Internet : le combat continue ». Il y est question explicitement de la « neutralité du Net » qu’il faut « continuer à défendre » pour avoir « la garantie que tous les contenus p[uissent] circuler librement sur les réseaux des opérateurs télécoms, sans discrimination ». Et d’ajouter : « Il n’y a pas de contenus “VIP” et tant mieux ! ». Alors que « certains acteurs imaginent pouvoir la supprimer là où elle existe, pendant que d’autres cherchent à l’imposer, comme le montre la récente décision [Safeguarding and Securing the Open Internet, ndlr] de la Federal Communications Commission aux Etats-Unis (13) ». Présidente de l’Arcep depuis fin janvier 2021, Laure de La Raudière – alors députée – avait remis en avril 2011 un rapport réalisé avec sa consoeur Corinne Erhel sur « la neutralité d’Internet et des réseaux » (14), à l’issue de la mission d’information de la commission des affaires économiques de l’Assemblée nationale. Ce rapport fera date dans la mesure où il veut éviter de sacrifier la neutralité de l’Internet sur l’autel de l’intérêt économique des opérateurs télécoms, en donnant une portée juridique à ce principe. Même La Quadrature du Net applaudit les propositions des deux députées qui ont « fait le choix pertinent de décorréler » la question de la neutralité du Net de celle des investissements des opérateurs télécoms (15). Treize après ce rapport jugé « courageux », Laure de La Raudière continue de faire de la neutralité du Net son cheval de bataille. Dans une tribune publiée le 2 juillet dans Le Monde, soit deux jours avant la publication du rapport sur « l’état de l’Internet en France », la présidente de l’Arcep a mis en garde contre cette fois « les IA génératives [qui] menacent notre liberté de choix dans l’accès aux contenus en ligne » (16). Comment ? « En contrôlant directement l’accès au savoir et son partage au cœur du modèle d’Internet, les IA génératives menacent donc notre liberté de choix dans l’accès aux contenus en ligne ainsi que notre liberté d’expression. Il s’agit d’une remise en cause fondamentale du principe d’ouverture d’Internet », alerte-t-elle, comme l’Arcep l’a fait en mars dans sa réponse (17) à la consultation publique de la Commission européenne sur la concurrence sur le marché des IA génératives. On remarquera au passage que sa tribune dans Le Monde emploie l’expression « Internet ouvert » mais, cette fois, pas du tout « neutralité d’Internet », peut-être pour ne pas fâcher les opérateurs télécoms arc-boutés contre ce principe de neutralité du Net… Autre danger : taxe « Gafam » sur les réseaux Un autre péril menace la neutralité de l’Internet. Il se situe dans le futur règlement européen sur les réseaux numériques – le Digital Networks Act (DNA) – qui pourrait être une des priorités de la prochaine Commission européenne qui s’installera en novembre 2024 avec Ursula von der Leyen reconduite à sa tête. Porté jusquelà par le commissaire au marché intérieur, Thierry Breton, ce DNA envisage – à la demande du lobby grands opérateurs télécoms historiques, l’Etno – une « contribution équitable » (network fees ou fair share) que seraient obligés de verser les Gafam aux « telcos » pour emprunter leurs réseaux (18). Cet « Internet à péage » (19) pourrait être le premier clou dans le cercueil de la neutralité du Net. @

Charles de Laubier

A l’ère de l’IA et de la data, la gestion collective des droits d’auteur veut devenir plus « intelligente »

Le 26 juin, lors de l’AG de la SCPP, organisme de gestion collective des droits des producteurs de musique, a été adopté le projet d’une filiale commune avec l’Adami (artistes et interprètes). Objectif : faire « données communes », notamment face à l’IA. La SPPF veut aussi les rejoindre.

Voilà qui devrait aller dans le sens de la Cour des comptes : un mouvement de rapprochement en France entre les organismes de gestion collective (OGC) des droits d’auteur et des droits voisins. Cette mise en commun concerne d’abord leurs systèmes d’information pour mieux moderniser leur « Big Data » et se mettre en ordre de bataille face à la déferlante de l’intelligence artificielle. Les magistrats du palais de Cambon, présidés par Pierre Moscovici (photo), ne cesse de prôner un tel rapprochement dans le rapport annuel de la commission de contrôle des OGC.

Rationaliser en faisant « Big Data » commun
Lors de l’assemblée générale annuelle de la Société civile des producteurs phonographiques (SCPP), le 26 juin, une résolution validant la création d’une « filiale commune paritaire » avec l’Adami (Administration des droits des artistes et musiciens interprètes) a été adoptée. Le premier OGC collecte et répartit les droits d’auteur gérés collectivement pour le compte des producteurs de musiques enregistrées, dont les trois majors que sont Universal Music, Sony Music et Warner Music. Le second OGC collecte et répartit les droits d’auteurs pour le compte des artistes interprètes de la musique et de l’audiovisuel.
La SCPP est le bras armé financier du Syndicat national de l’édition phonographique (Snep) et compte plus de 4.500 producteurs de musique membres, tandis que l’Adami est au service de près de 100.000 artistes-interprètes. Improbable par le passé, ce rapprochement entre les deux organismes a été annoncé le 27 mai dernier (1) et va se concrétiser par « une mise en commun, à travers la création d’une filiale commune et paritaire, de leurs bases de données respectives et de leurs outils de répartition pour les droits à rémunération que sont la rémunération pour copie privée et la rémunération équitable ». Une étude de faisabilité est en train d’être menée pour savoir comment sera mise en œuvre opérationnelle cette répartition, et pour adopter des règles communes d’affectation « par phonogramme » – comprenez par musique enregistrée où le streaming domine désormais. A à l’heure de la multiplication des IA génératives dévoreuses de catalogues musicaux, la mise en commun des moyens informatiques et des data s’impose. « Les organismes de gestion collective sont devenus des sociétés du Big Data nécessitant de constamment adapter leur système d’information. Ce défi prendra sa pleine mesure avec le développement de l’IA », justifient la SCPP dirigée par Marc Guez et l’Adami gérée par Michel Joubert. Un autre OGC, la Société civile des producteurs de phonogrammes en France (SPPF), qui revendique 2.330 producteurs associés et que dirige Jérôme Roger, a indiqué le 6 juin « vouloir rejoindre cette initiative dès que possible » (2). Tout en se réjouissant de l’accord de partenariat entre la SCPP et l’Adami, la SPPF – rivale historique de la SCPP et pendant de l’Union des producteurs phonographiques français indépendants (UPFI) – rappelle qu’elle avait conclu en 2022 un accord de partenariat avec la même Adami qui prévoyait « la possibilité d’une mise en commun de leurs systèmes d’information respectifs afin d’améliorer notamment la qualité des travaux d’identification ».
Dans le rapport de 2023 de sa commission de contrôle des organismes de gestion des droits d’auteur et des droits voisins, la Cour des comptes avait encore suggéré cette rationalisation informatique entre la SCPP et la SPPF pour faire des économies: « Le système d’information de la SCPP semble plus mature et en adéquation avec les enjeux du secteur. Un travail de convergence vers le système d’information de la SCPP pourrait être mis en place dans le cadre d’un rapprochement entre les deux organismes ». Les magistrats du palais de Cambon pointent «la complexité du dispositif français» faisant intervenir trois organismes, dont deux OGC de premier niveau (la SCPP et la SPPF) et un OGC intermédiaire (la SCPA), qui répartissent les droits collectés par d’autres OGC (SPRE, Copie France). Et en plus d’être rivales, la SCPP et la SPPF ferraillent en justice sur des contentieux entre elles depuis 2018.

Vers un rapprochement de tous les OGC ?
Selon la Cour des comptes, les deux OGC font soit « un divorce intégral, qui pourrait impliquer la dissolution de la SCPA », soit « une “sortie par le haut”, qui pourrait se traduire par un rapprochement plus étroit pouvant aller jusqu’à la fusion, au sein d’une nouvelle entité dont la SCPA pourrait être la préfiguration » (3). En tout cas, l’accord SCPPAdami pourrait être la première étape à un rapprochement entre l’ensemble des OGC en France, comme le souhaite la SPPF. Les auteurs, artistes et interprètes seraient gagnants. Et après, un rapprochement du Snep et de l’UPFI ? « Un rapprochement des syndicats n’est pas à l’ordre du jour », répond à Edition Multimédi@ Alexandre Lasch, directeur général du Snep. @

Charles de Laubier

Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet. Exception de Text and Data Mining Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés. Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur prochaine du règlement européen sur l’intelligence artificielle – l’AI Act dont le texte final (1) a été signé le 13 juin 2024 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles. En effet, l’article 53 et l’annexe XI de l’AI Act imposent, entre autres, aux fournisseurs de modèles d’IA à usage général (2) de mettre à disposition des informations sur les données utilisées pour l’entraînement de ces modèles, au moyen d’un document-type qui sera mis à disposition par le bureau de l’IA (AI Office). Ils doivent notamment indiquer comment ces données ont été obtenues et sélectionnées, ainsi que toutes les mesures prises pour détecter les sources de données inadéquates. Pour pouvoir se conformer de manière sereine à ces nouvelles exigences (3), il est indispensable de s’assurer que les données d’entraînement ont été récupérées et collectées dans le respect des droits de propriété intellectuelle et du RGPD, sous peine de risquer des actions en contrefaçon ou des procédures de sanction devant les autorités de contrôle (4). En effet, le contenu d’un site Internet qu’un acteur entend scrapper (« moissonner ») pour constituer une base de données d’entraînement peut à la fois contenir des données à caractère personnel, mais également être protégé au titre du droit d’auteur (5) ou du droit des bases de données (6). Or, par principe, toute reproduction et utilisation d’un contenu protégé par un droit de propriété intellectuelle nécessite d’obtenir l’autorisation du titulaire des droits concernés. Néanmoins, afin de favoriser le développement de l’IA, le code de la propriété intellectuelle (CPI) a introduit, pour le droit d’auteur et le droit des producteurs de bases de données, les exceptions de fouilles de textes et de données (dites de Text and Data Mining) qui permettent de scrapper des données à des fins d’entraînement des modèles, sous réserve de respecter un certain nombre de conditions. Il y a en réalité deux régimes : la fouille de textes et de données à des fins de recherche scientifique (7) et celle à des fins diverses (8). L’exception de fouille à des fins de recherches scientifique présente l’avantage d’être un droit absolu (le titulaire des droits ne peut pas s’y opposer), sous réserve que l’accès aux données soit réalisé de manière licite (9). Néanmoins, son périmètre est relativement restreint puisque seuls peuvent s’en prévaloir certains acteurs limitativement énumérés (10). La plupart des fournisseurs de systèmes d’IA ne peut donc pas mobiliser cette exception et doit se rabattre sur l’exception générale dite à des fins diverses. Pour pouvoir invoquer le bénéfice de cette exception générale, le fournisseur de système d’IA doit accéder aux données de manière licite et s’assurer que le titulaire des droits de propriété intellectuelle ne s’y est pas opposé. « Moissonnage » et données personnelles Les textes précisent que l’opposition du titulaire des droits « n’a pas à être motivée et peut être exprimée par tout moyen », notamment « au moyen de procédés lisibles par machine, y compris des métadonnées, et par le recours à des conditions générales d’utilisation » (11). Pour l’opposition via des procédés techniques, plusieurs outils existent (Robot.txt, AI.txt, TDMRep, …). En pratique, cela signifie que pour pouvoir scrapper les données des sites Internet à des fins d’entraînement des modèles, les fournisseurs de systèmes d’IA ne doivent pas contourner les éventuels dispositifs de protection existants (par exemple un accès restreint par un compte utilisateur) et doivent s’assurer, au moment de l’extraction des données, que les conditions générales d’utilisation (CGU) et/ou mentions légales du site Internet ne contiennent pas de clause interdisant l’extraction des données et que les métadonnées du site Internet n’expriment pas non plus une telle interdiction. L’AI Act confirme ce dernier point (12). Lorsqu’un titulaire de droits s’est opposé à l’extraction de ses données, le fournisseur de système d’IA n’a d’autre choix que d’obtenir une autorisation expresse (13) au moyen d’un accord de licence ou de partenariat, comme ont récemment pu le faire OpenAI avec Le Monde, Die Welt et El País (14). Une fois ces vérifications opérées, le fournisseur de système d’IA devra suivre des étapes supplémentaires si le contenu qu’il souhaite « moissonner » contient des données à caractère personnel, afin de respecter le RGPD. Base légale de l’intérêt légitime Ces derniers mois, la Cnil a publié plusieurs fiches pour guider les fournisseurs de systèmes d’IA (15) au sein desquelles elle clarifie comment appliquer les principes clefs aux spécificités de l’IA. Elle y admet qu’il est possible de fonder les traitements d’entraînement des modèles d’IA sur la base légale de l’intérêt légitime, notamment lorsque les données sont collectées à partir de sources publiques (16), sous réserve de mener une analyse au cas par cas permettant de documenter la légitimité de l’intérêt poursuivi, sa nécessité et le fait qu’il n’y a pas d’atteinte disproportionnée aux intérêts, droits et libertés des personnes. Pour autant, en juin 2024, Noyb a porté plainte – auprès de onze « Cnil » en Europe – contre Meta dont il conteste la faculté de se fonder sur l’intérêt légitime pour récupérer les données de Facebook et Instagram afin d’entraîner ses modèles d’IA. Dans l’attente, Meta a stoppé son projet (17). La première étape avant de scrapper des données à caractère personnel est de définir la finalité du traitement, à partir de laquelle l’analyse de conformité aux principes de protection des données personnelles pourra être réalisée. A partir de cette finalité (créer une base de données afin d’entraîner des modèles d’IA permettant d’évaluer l’appréciation d’œuvres par le public, développer un LLM capable de répondre à des questions, générer du texte, effectuer des résumés, etc,…), le fournisseur de modèles d’IA devra s’assurer du respect du principe de minimisation, en ne collectant que les données pertinentes et nécessaires pour atteindre son objectif. Concrètement, cela signifie qu’il doit s’interroger en amont sur les catégories de données nécessaires pour l’entraînement du modèle d’IA. En pratique, il devra définir les catégories de données à collecter et mettre en place des filtres permettant d’exclure la collecte de certaines données. Dans sa fiche dédiée au web scraping (18), la Cnil précise que dans l’hypothèse où des données non pertinentes seraient collectées malgré les filtres mis en place, il convient de supprimer ces données, immédiatement après leur collecte ou dès elles ont été identifiées. Elle appelle également à la prudence sur la collecte automatique de données sensibles en invitant les fournisseurs à appliquer des filtres permettant d’écarter la collecte de données sensibles (19) non pertinentes ou à exclure de leurs activités de scraping certains sites comportant par nature ce type de données. Respecter le RGPD suppose, par ailleurs, d’informer les personnes concernées et de faciliter l’exercice de leurs droits. La Cnil reconnaît (20) qu’en cas de collecte parweb scraping, une information individuelle des personnes pourrait, dans certains cas, être disproportionnée et donc non obligatoire. Elle recommande alors au fournisseur du système d’IA de fournir une information générale (par exemple au sein de sa politique de confidentialité) contenant notamment les catégories de sites sources utilisés avec des liens hypertextes vers ceux-ci, en proposant un modèle dédié. Pour les droits des personnes, elle rappelle qu’un responsable du traitement n’a pas à conserver ou collecter des informations supplémentaires qui ne lui sont pas nécessaires dans le seul but de permettre l’exercice des droits. La Cnil propose néanmoins des exemples de mesures que les fournisseurs de modèles d’IA pourraient mettre en place pour faciliter l’exercice des droits (comme la conservation de métadonnées ou d’informations sur la source des données pour faciliter la recherche d’une personne au sein de la base ou l’indication aux personnes des données à fournir pour les identifier). La Cnil propose enfin de mettre en place des mesures supplémentaires pour garantir l’équilibre attendu de ces traitements basés sur l’intérêt légitime. Certaines mesures découlant des règles précédemment citées semblent réalisables : exclure par défaut la collecte à partir de certains sites contenant des données intrusives ; prévoir la possibilité de s’opposer au traitement de manière discrétionnaire ; appliquer des procédés d’anonymisation ou de pseudonymisation après la collecte des données. D’autres semblent moins pragmatiques. AI Office : recommandations très attendues Certains acteurs pourraient ainsi saisir l’opportunité de remonter leurs questionnements, difficultés pratiques, appréciation des règles dans le cadre de la consultation publique à laquelle sont soumises certaines fiches jusqu’au 15 septembre 2024 (21) ou répondre au questionnaire (22). A l’aune de l’entrée en vigueur de l’AI Act, les fournisseurs de modèles d’IA à usage général attendront donc les précieuses recommandations et modèles du bureau de l’IA, tout récemment créé (23), sur les documents à produire pour les sources de données d’entraînement, afin de leur permettre d’engager les travaux nécessaires à la compilation de ces informations. @