L’enjeu de la base légale et de l’information dans la conformité au RGPD des fournisseurs d’IA

Depuis peu, les fournisseurs de systèmes d’intelligence artificielle (IA) font l’objet d’une attention accrue de la part des autorités de contrôle européennes, lesquelles analysent leur conformité au règlement sur la protection des données (RGPD), de l’information des personnes à la base légale.

Par Sandra Tubert, avocate associée et Alicia Forgues, docteure en droit, Algo Avocats

Après avoir sanctionné OpenAI en décembre 2024 pour ses manquements au RGPD en lien avec son IA générative ChatGPT (1), l’autorité italienne de protection des données – la GPDP (2) – vient cette fois d’ordonner, le 30 janvier dernier (3), le blocage immédiat de l’application et du site web DeepSeek en Italie en raison de manquements présumés au RGPD. Avant d’ordonner la limitation du traitement, la GPDP avait adressé le 28 janvier une demande d’informations à DeepSeek, afin qu’elle précise les données traitées, les finalités poursuivies, leurs bases légales, le lieu de stockage, ainsi que la typologie de données utilisées pour entraîner les modèles d’IA, leurs sources et les modalités d’information des personnes (4).

Modèles d’IA, systèmes d’IA et données
D’autres « Cnil » européennes ont ouvert des enquêtes. Si le recours à l’IA n’impacte pas véritablement les réponses à apporter à certaines de ces questions, les bases légales de traitement et modalités d’information des personnes posent plus de difficultés lorsqu’il s’agit des traitements mis en œuvre dans le cadre de l’entraînement des modèles d’IA. En effet, ces derniers sont entraînés à l’aide d’un grand nombre de données, parmi lesquelles figurent parfois des données personnelles. Celles-ci se divisent en deux catégories : les données fournies directement par des personnes concernées ou les utilisateurs du système d’IA intégrant le modèle d’IA, auxquelles se rajoutent les données collectées durant l’utilisation du service (données first-party) et les données de non-utilisateurs collectées par web scraping ou grâce à la signature de contrats de licences d’utilisation de contenus (données third-party).
Lorsque le fournisseur se contente d’utiliser des données first-party pour entraîner ses modèles d’IA, le contact direct dont il dispose avec les personnes concernées par le traitement lui permet de les informer de manière classique, notamment via une politique de confidentialité – à laquelle il sera renvoyé depuis un formulaire de collecte ou un courriel – qui devra être précise et claire sur les finalités d’entraînement des modèles (notamment en distinguant l’information portant sur l’entraînement des modèles des autres traitements). A l’inverse, s’il utilise également (suite)

des données third-party, le fournisseur fait face à une difficulté, celle d’identifier un moyen approprié pour informer les personnes concernées de l’utilisation de leurs données à des fins d’entraînement des modèles d’IA. Sur ce point, la décision de sanction de 15 millions d’euros rendue en Italie par la GPDP à l’encontre d’OpenAI contient quelques enseignements. Elle y rappelle qu’elle avait, en avril 2023, ordonné à OpenAI un certain nombre de mesures pour se conformer à l’obligation d’information du RGPD. Selon la GPDP, OpenAI devait non seulement publier une mention d’information sur son site Internet explicitant clairement les finalités d’entraînement des modèles, mais aussi mettre à disposition des personnes un outil permettant d’exercer leurs droits (notamment d’opposition). Le fournisseur de ChatGPT devait également et surtout mener une campagne non promotionnelle à la radio, dans les journaux et à la télévision, dont le contenu aurait dû être validé par l’autorité. Objectif : que les utilisateurs et non-utilisateurs soient clairement sensibilisés à l’utilisation de leurs données à des fins d’entraînement des modèles d’IA et aux droits dont ils disposent, afin qu’ils puissent pleinement les exercer. Cette dernière modalité d’information demandée questionne sur les motivations entourant cette mesure (volume de personnes et de données concernées ? méconnaissance de ces traitements par le grand public en 2023 ?). En effet, cette mesure semble difficilement transposable à l’ensemble des acteurs entraînant des modèles d’IA.
En France, la Commission nationale de l’informatique et des libertés (Cnil) propose dans ses fiches IA (5) d’autres pistes pour informer les personnes. Première suggestion : s’appuyer sur le diffuseur des données (celui qui les a collectées initialement auprès des personnes) pour fournir une information complète, étant précisé que la seule mention d’une ré-exploitation par des tiers est insuffisante et qu’il convient, au contraire, d’indiquer que les données seront utilisées afin de développer un système d’IA et d’en désigner nommément le fournisseur.

Exception à l’information individuelle
Deuxième suggestion de la Cnil : rendre les informations disponibles publiquement sur un site web ou panneau d’affichage, sans procéder à une information individuelle, en s’appuyant sur l’exception prévue par le RGPD (à savoir l’information individuelle se révèlerait impossible ou exigerait des efforts disproportionnés (6)). Sur ce point, il conviendra alors de documenter le caractère disproportionné, suite à une mise en balance entre les efforts exigés – comme l’absence de coordonnées des personnes, le nombre de personnes concernées, les coûts de communication – et l’atteinte portée à la vie privée des personnes, notamment le caractère intrusif du traitement. La Cnil précise que l’information générale devra alors indiquer les sources précises utilisées pour constituer la base de données d’entraînement (ou a minima les catégories de sources lorsqu’elles sont trop nombreuses) ainsi que les moyens pour contacter le diffuseur auprès duquel les données ont été récupérées (7).

Intérêt légitime et ses limites : incertitude
Au-delà de l’information, l’entraînement des modèles d’IA questionne sur l’identification de la base légale parmi les six options inscrites dans le RGPD (8). Dans sa décision à l’encontre d’OpenAI, la GPDP a relevé un manquement sur ce point, lui reprochant une réflexion insuffisante sur le sujet, matérialisée par le fait qu’au cours de la procédure, la société a évoqué à la fois l’intérêt légitime et l’exécution du contrat comme base légale de son traitement d’entraînement des modèles d’IA. La GPDP rappelle ainsi aux fournisseurs de systèmes d’IA leur obligation d’identifier la base légale du traitement en amont de la mise en œuvre de ces traitements et de documenter leur analyse si l’intérêt légitime est retenu. Malheureusement, elle n’explore pas plus en profondeur la légitimité de fonder de tels traitements sur l’intérêt légitime ou ses limites, laissant les fournisseurs dans l’incertitude. Or, l’intérêt légitime est la base légale vers laquelle se tournent majoritairement les fournisseurs de système d’IA.
Ceci s’explique principalement par les cas restreints dans lesquels il est possible de fonder les traitements d’entraînement des modèles sur le consentement ou l’exécution du contrat. Cette dernière est souvent rapidement exclue, puisqu’une interprétation stricte en est retenue par les autorités et la CJUE et qu’elle ne peut être utilisée qu’en présence d’un contrat entre le fournisseur du système d’IA et les personnes concernées, pour des traitements objectivement indispensables à l’exécution des obligations prévues par ce contrat. Le consentement peut, quant à lui, être mobilisé par les fournisseurs utilisant des données firstparty, mais n’est pas véritablement disponible pour ceux qui entraînent leurs modèles d’IA avec des données third-party. Dès lors, le recours à l’intérêt légitime pour entraîner des modèles se généralise, même si cette démarche est critiquée, notamment par l’association Noyb (9).
Face à cette incertitude, l’autorité irlandaise (DPC) a émis une demande d’avis auprès du Comité européen de la protection des données (EDPB) en septembre 2024. La DPC souhaitait obtenir des renseignements sur la façon dont un responsable du traitement peut démontrer le bien-fondé de l’intérêt légitime en tant que base légale de traitement pour le développement de modèles d’IA (10). En réponse, l’EDPB a adopté en décembre dernier un avis (11), assez théorique (sans éclaircissements inédits), dans lequel il rappelle et présente les grandes notions et critères à prendre en compte en lien avec les trois conditions cumulatives pour documenter le fait qu’un traitement puisse être fondé sur l’intérêt légitime. L’EDPB y propose néanmoins quelques exemples de mesures souhaitables pour atténuer les risques identifiés lors de la balance des intérêts (pseudonymisation des données d’entraînement, masquage des données personnelles ou leur substitution par des données synthétiques, mise en place d’un délai entre la constitution de la base et l’entrainement des modèles pour permettre l’exercice des droits, …). Pour les données collectées par web scraping, l’EDPB propose des mesures spécifiques (exclure certaines catégories de données ou certaines sources, créer des listes d’opposition gérées par le fournisseur de systèmes d’IA, …). La DPC a salué l’avis rendu, de même que la Cnil, dont les travaux préexistants sur le sujet (qui apportent un éclairage complémentaire et plus concret) ne sont pas contredits (12). En dépit des recommandations figurant dans ces avis, les difficultés liées au recours à l’intérêt légitime dans un contexte d’entraînement des modèles d’IA sont mises en lumière par l’avertissement rendu par la GPDP, le 27 novembre 2024, à l’encontre de l’éditeur de presse Gedi (13). Celui-ci avait conclu un contrat avec OpenAI relatif à la communication d’archives de journaux pour permettre à ce dernier d’entraîner ses modèles d’IA et de mettre à disposition les contenus de presse de Gedi accompagnés d’un résumé, en temps réel, sur ChatGPT (14). En effet, bien que Gedi ait réalisé une analyse d’impact sur la protection des données, dans laquelle il indiquait fonder à la fois ses traitements et ceux d’OpenAI sur l’intérêt légitime, la GPDP a mis en lumière plusieurs difficultés liées à cette position (15).

Affaire « Gedi » : le cas des archives de presse
La première est la présence dans ces archives d’un volume important de données personnelles, notamment sensibles ou relatives à des infractions. L’autorité italienne rappelle alors que la base légale de l’intérêt légitime ne peut pas, à elle seule, légitimer le traitement de telles données sensibles et qu’il est nécessaire d’identifier, en plus, une des exceptions prévues par le RGPD (16). La seconde est relative à l’information des personnes et à leurs attentes raisonnables. La GPDP estime en effet que les personnes dont les données figurent dans ces archives de journaux ne peuvent pas s’attendre à une telle communication à OpenAI et que l’ajout prévu dans la politique de confidentialité de Gedi (non encore publié) s’adresse aux utilisateurs enregistrés de ses journaux et non aux personnes mentionnées dans les articles transmis. @

Le 3e Sommet sur l’IA se tient en février à Paris sous l’égide du président de la République, Emmanuel Macron

L’intelligence artificielle préoccupe de plus en plus les Etats du monde entier, alors que Trump a lancé Stargate et la Chine DeepSeek. Après le 55e Forum mondial de l’économie en janvier à Davos, où il a été question d’IA, le 3e Sommet de l’IA – organisé par l’Elysée les 10 et 11 février à Paris – cherche la réplique.

N’appelez pas cette troisième édition « AI Safety Summit » (Sommet sur la sécurité de l’IA) comme ce fut le cas pour la première édition qui s’était tenue au Royaume-Uni en 2023 (1), ni même « AI Paris Summit » sur le modèle de la seconde édition qui avait eu lieu en Corée du Sud en 2024, à Séoul, sous le nom de « AI Seoul Summit » (2).
La France organise cette année ce troisième rendez-vous international sous un nom encore différent : cette fois, il s’agit du « Sommet pour l’action sur l’IA », les 10 et 11 février 2025 au Grand Palais à Paris (3). « Ce nom a été choisi car nous voyons l’IA comme une technologie, avec des opportunités et des risques – l’action c’est pour agir pour les opportunités et contre les risques, et engager des actions concrètes sur ces sujets », indique à Edition Multimédi@ la présidence de la République, Emmanuel Macron (photo) étant à l’initiative de cet événement. La nouvelle appellation est aussi moins anxiogène que celle retenue en 2023 par son ancien homologue britannique Rishi Sunak, à qui revient la paternité de ce sommet international dédié à l’intelligence artificielle lorsqu’il était Premier ministre de Sa Majesté. Si pour les deux premières éditions, la Grande-Bretagne a été respectivement organisatrice et coorganisatrice, cette troisième édition est pilotée par l’Elysée, avec l’Inde qui copréside.

Davos, Stargate, DeepSeek : l’IA dans tous ses « Etats »
Mais ce Sommet pour l’action sur l’IA a été devancé par trois événements de portée internationale touchant à l’intelligence artificielle : le premier en Suisse avec le Forum de Davos, le second aux Etats-Unis avec le projet Stargate et le troisième avec l’offensive de l’IA générative chinoise DeepSeek. Le traditionnel Forum économique mondial ou World Economic Forum (WEF) – qui se tient depuis 54 ans dans la station de ski huppée de Davos en Suisse – lui a donné une place de choix lors de sa 55e édition qui s’est déroulée du 20 au 24 janvier dernier sous le thème cette année « Collaboration pour l’ère de l’intelligence ». (suite)

Autant dire que le cru 2025 du « Davos » était placé sous le signe de l’IA, comme l’ont démontré les nombreuses sessions, débats et rapports traitant de cet enjeu mondial on ne peut plus hype. « Grâce aux progrès rapides de l’IA, de l’informatique quantique et de la blockchain, l’ère intelligente transforme tout, partout, en même temps. Parallèlement à l’évolution rapide de l’IA, le monde est témoin des progrès en biotechnologie, en informatique de pointe, en robotique et au-delà. L’interdépendance de ces technologies présente d’immenses opportunités et des défis complexes. », a souligné le Forum économique mondial.

« Etats-Unis, capitale mondiale de l’IA » (Trump)
Les usines deviennent intelligentes ; les chaînes d’approvisionnement deviennent intelligentes ; le transport et la logistique deviennent intelligents ; le secteur de la santé devient intelligent. La mondialisation de l’économie voit également le commerce international s’approprier l’IA, comme le développe le rapport intitulé « TradeTech » (4) publié par le Forum de Davos. Aucun domaine n’échappe à la déferlante IA, pas même les Etats et les gouvernements qui deviennent eux aussi intelligent. « D’ici 2034, la GovTech – la technologie gouvernementale – devrait libérer 9.800 milliards de dollars en valeur publique à l’échelle mondiale, transformant ainsi la façon dont les gouvernements fonctionnent et se connectent aux gens », rapporte Kelly Ommundsen (photo ci-contre), cheffe de l’inclusion numérique et membre du comité exécutif du World Economic Forum, en faisant référence au rapport publié lui aussi par le Forum de Davos et réalisé en collaboration avec le Centre mondial de technologie gouvernementale à Berlin et Capgemini (5).
Matt Garman, directeur général d’Amazon Web Services (AWS) était parmi les 3.000 dirigeants venus de plus de 130 pays, dont 300 gouvernementaux (60 chefs d’Etat compris), présents dans cette petite station de ski huppée helvétique : « La technologie évolue à un rythme incroyable, s’est-il étonné. Je ne sais pas si nous l’avons vue progresser aussi rapidement qu’elle l’a fait. Et je pense que l’un des défis de cela est qu’il est difficile pour tout le monde de suivre ». Le Forum de Davos a montré que de nombreuses organisations ont expérimenté l’IA à travers des projets pilotes et de preuves de concept (6). Mais la mise à l’échelle de ces efforts pour obtenir un impact durable et transformateur demeure un défi important. Les dépenses mondiales liées à l’IA dans les industries devraient atteindre environ 630 milliards de dollars d’ici 2028, dont 200 milliards de dollars pour les IA génératives (GenAI), à raison d’une croissance annuelle de 29 %, tandis que le chiffre d’affaires réalisé grâce à l’IA sera proche de 1.000 milliards de dollars cette année-là. C’est ce qui ressort du rapport « L’IA en action : au-delà de l’expérimentation pour transformer l’industrie » (7), réalisé en collaboration avec Accenture pour le WEF et l’AI Governance Alliance, organisation à but non lucratif basée à Genève. Selon une enquête de ce rapport, 65% des entreprises et administrations déclarent aujourd’hui utiliser une « GenAI » dans au moins une fonction. Mais c’est surtout l’avènement des intelligences artificielles générales (AGI), ayant la polyvalence de raisonner, d’apprendre et d’innover dans n’importe quelle tâche, qui a soulevé de sérieuses interrogations à Davos : « L’AGI sera-t-elle une force pour le progrès ou une menace pour le tissu même de l’humanité ? » (8).
Lors de son intervention en visioconférence le 23 janvier au Forum économique mondial, à peine trois jours après son investiture en tant que 47e président américain, Donald Trump a déclaré au monde entier qu’il comptait faire des Etats-Unis « la capitale mondiale de l’intelligence artificielle », en précisant à son auditoire hypnotisé : « Il y a deux jours [le 21 janvier, ndlr], Oracle, SoftBank et OpenAI ont annoncé un investissement de 500 milliards de dollars dans l’infrastructure de l’IA » (9). Le nouveau locataire de la Maison-Blanche faisait ainsi référence à son projet Stargate, comprenez « porte des étoiles ». Bien que Donald Trump n’ait pas mentionné Nvidia, le géant américain des puces pour l’IA, celui-ci fait bien partie de ce plan d’investissement en infrastructures et centres de calcul sur le sol américain « pour porter la prochaine génération d’IA ». « Dans le cadre de Stargate, Oracle, Nvidia et OpenAI collaboreront étroitement […]. Cette initiative s’appuie également sur le partenariat OpenAI existant avec Microsoft », est-il indiqué (10). Les Emirats arabes unis, via leur fonds d’investissement MGX, sont aussi appelés à prêter main forte à Stargate. Coupant l’herbe sous le pied d’Emmanuel Macron avant son Sommet de l’IA, le projet Stargate lancé par l’administration « Trump II » (11) veut contrer la Chine, dont la V3 de l’IA générative low cost DeepSeek (12) est venue bousculer la coûteuse suprématie étatsunienne et son icône Nvidia qui a lourdement trébuché en Bourse.
Washington compte aussi garder une longueur d’avance sur Bruxelles. L’Europe n’a plus qu’à adopter un plan d’industrialisation de puces IA si elle ne veut pas être disqualifiée. Avec son Sommet de l’IA, la France espère être à la hauteur des enjeux avec ses « 750 start-up dans l’IA » (13), dont sa licorne Mistral AI destinée à être « un des géants européens de l’IA ».

A Paris, une fondation de l’IA à 2,5 Mds €
Anne Bouverot, envoyée spéciale du président de la République pour l’IA, a indiqué – dans La Tribune Dimanche du 26 janvier – que sera créée « une fondation consacrée à l’IA », possiblement basée à Paris et financée à hauteur de « 2,5 milliards d’euros sur cinq ans, dont 500 millions dès cette année ». Ce sommet diplomatique impulsé par Emmanuel Macron procèdera aussi à la signature par les pays participants d’« une déclaration commune sur la nécessité d’une gouvernance mondiale » de l’IA. @

Charles de Laubier

Artistes et auteurs interpellent le Sommet de l’IA

En fait. Le 21 janvier, six organisations d’artistes et d’auteurs – Sacem, Scam, Adami, Spedidam, ADAGP et SGDL – ont demandé à leurs quelque 363.700 membres de signer une « tribune collective » pour interpeller les chefs d’Etat et dirigeants qui se réuniront les 10 et 11 février au Sommet de l’IA à Paris.

En clair. Selon les informations de Edition Multimédi@, six organisations d’artistes, d’auteurs, de compositeurs, de créateurs ou encore d’éditeurs ont écrit le 21 janvier à leurs membres respectifs, soit à environ 363.700 au total, pour leur demander de signer une « tribune collective » afin de « faire entendre [leur] voix » lors du Sommet pour l’action sur l’intelligence artificielle (IA) qui se tiendra les 10 et 11 février à Paris à l’initiative de l’Elysée.
« Il est de notre devoir de nous mobiliser pour défendre les droits des créateurs et veiller à ce que les politiques publiques, ainsi que les grandes entreprises d’IA, respectent et valorisent nos contributions », justifie Patrick Sigwalt, président du conseil d’administration de la Société des auteurs, compositeurs et éditeurs de musique (Sacem). Ses membres ainsi que ceux de la Société civile des auteurs multimédias (Scam), de l’Administration des droits des artistes et musiciens interprètes (Adami), de la Société de gestion des droits des artistes interprètes (Spedidam), de la Société des auteurs dans les arts graphiques et plastiques (ADAGP) et de la Société des gens de lettres (SGDL) avaient jusqu’à ce 3 février pour signer cet « appel commun ». Il s’agit d’interpeller les (suite)

centaines de chefs d’Etat et de gouvernement, d’universitaires ou encore de dirigeants d’entreprises qui seront présents à ce 3e Sommet sur l’IA pour, écrit Patrick Sigwalt (1), « demander des mesures claires pour préserver nos droits face à l’IA ».
Orchestré par Emmanuel Macron (lire en Une), ce sommet diplomatique sur l’IA sera donc interpellé sur le copyright et l’opt-out (2), notamment le week-end du 8 et 9 février consacré à la culture et l’IA justement (3). Ensemble, auteurs et artistes souhaitent que « [ce sommet] se penche sur la question centrale du droit d’auteur et des droits voisins », tout en précisant que « [leur] démarche ne s’inscrit pas dans une opposition inévitablement stérile entre les acteurs de l’IA et ceux de la culture ». Cette tribune va rappeler que « l’utilisation sans [leur] consentement de [leur] talent et de [leur] travail pour l’entraînement de l’IA générative représente une atteinte inacceptable au respect de [leurs] œuvres et de [leur] travail artistique ». Ils pointeront également l’absence de « contrepartie financière » en l’absence d’autorisation et un « risque de substitution » induit par les contenus générés par l’IA. @

La « French Tech » a eu du mal à lever des fonds en 2024, plafonnant à environ 7,2 milliards d’euros

S’il n’y avait pas eu le demi-milliard de la société française Mistral AI, la chute des levées de fonds par les start-up françaises aurait été plus prononcée en 2024 (-18 % sans, contre 12 % avec). Cette baisse des investissements, à environ 7,2 milliards d’euros, est inquiétante au regard des besoins.

Les premiers calculs sur les levées de fonds enregistrées sur l’année 2024 par les start-up de la « French Tech » font état d’un total d’environ 7,2 milliards d’euros. C’est plus ou moins un milliard de moins que l’année précédente, et bien loin des quelque 15 milliards d’euros levés en 2022 au sortir de la crise sanitaire, pour ne pas dire moitié moins que ce record. Cette chute de – 12 % sur un an des capitaux investis dans les jeunes pousses innovantes, bien qu’amortie, est paradoxale au regard de la révolution de l’intelligence artificielle (IA), des besoins en mobilité ou encore de l’essor de la fintech.

Mistral AI, Poolside AI et Electra en tête
Cette moindre performance devrait interpeller la ministre déléguée chargée de l’Intelligence artificielle et du Numérique, Clara Chappaz (photo), nommée par l’éphémère gouvernement Barnier sous la houlette du ministère de l’Enseignement supérieur et de la recherche (1), et maintenue par le gouvernement Bayrou, mais cette fois auprès du ministre de l’Economie, des Finances et de la Souveraineté industrielle et numérique – en l’occurrence Eric Lombard (exCDC). Ancienne dirigeante de la mission French Tech d’octobre 2021 à septembre 2024, Clara Chappaz garde un œil sur le microcosme des jeunes pousses dont elle est issue (Zalora, Lullaby, Lyst, Vestiaire Collective). « En 2025, il nous faudra plus que jamais rassembler nos forces pour que la France et l’Europe restent dans la course au numérique et à l’IA », at-elle prévenu lors de ses vœux début janvier (2).
Or, selon les relevés de la mission French Tech justement, basés sur les données collectées par la plateforme néerlandaise Dealroom.co que Edition Multimédi@ a consultées, les fonds levés (suite)

par les start-up françaises en 2024 – pour un total de 877 tours de table – ne dépassent pas les 7,2 milliards d’euros. Cela représente donc une chute de – 12 % par rapport aux 8,8 milliards d’euros enregistrés en 2023 pour 1.423 tours de table. La performance de l’an dernier est même moitié moins élevée que le record de 15,1 milliards de d’euros de l’année 2022, au sortir de la crise sanitaire, contre 13,7 milliards d’euros de l’année 2021 (voir tableau ci-dessous). Toujours selon les données « French Tech-Dealroom.co », la start-up Mistral AI arrive en tête du classement des valorisations avec une levée de fonds de 468 millions d’euros obtenus en 2024 auprès des investisseurs Lightspeed Venture Partners, General Catalyst, Sofina, Bpifrance et Andreessen Horowitz. La société parisienne Mistral AI – cofondée en avril 2023 par Arthur Mensch (ex-Google DeepMind), Guillaume Lample et Timothée Lacroix, avec la participation controversée de l’ancien secrétaire d’Etat au Numérique Cédric O (3) – est aujourd’hui valorisée 5,8 milliards d’euros. Ce qui en fait (avec Doctolib) la première licorne française (4).
La deuxième place revient à la start-up Poolside AI, valorisée 2,7 milliards d’euros grâce à une levée de fonds de 500 millions d’euros en 2024. Parisienne également, fondée par Jason Warner (l’ancien directeur technique de GitHub), elle crée une IA capable d’effectuer des tâches de développement logiciel. Troisième du classement : Electra, elle aussi parisienne et spécialiste de la recharge rapide de véhicules électriques, est valorisée jusqu’à 1,8 milliard d’euros, à la suite d’un tour de table de 304 millions d’euros en 2024. Il y a ensuite 874 autres tours de table bouclés l’an dernier. La « Start-up Nation » d’Emmanuel Macron résiste. @

Charles de Laubier

« Résumé suffisamment détaillé » : 2025 sera l’année de vérité dans la mise en œuvre de l’AI Act

Le rapport du CSPLA sur la mise en œuvre du règlement européen établissant des règles harmonisées sur l’IA fournit les ingrédients mais… pas la recette ! Le Bureau européen de l’IA, créé par l’AI Act, doit publier prochainement un « modèle européen » à suivre par les Vingt-sept.

Par Anne-Marie Pecoraro*, avocate associée, UGGC Avocats

Le rapport « IA et Transparence des données d’entraînement » (1), publié le 11 décembre 2024 par le Conseil supérieur de la propriété littéraire et artistique (CSPLA), s’inscrit dans la préparation de la mise en œuvre du règlement européen sur l’intelligence artificielle (AI Act) et a pour objectif de clarifier l’interprétation et la portée des dispositions imposant un modèle de « résumé suffisamment détaillé » (2). Ce modèle sera présenté au nom de la France dans le cadre du processus d’adoption d’un modèle européen par le Bureau européen de l’IA (AI Office), autorité créée par l’AI Act et chargée d’accompagner les fournisseurs d’IA dans leur mise en conformité. La publication du modèle européen est attendue pour janvier 2025.

Transparence des données d’entraînement
La collecte de données de qualité, notamment de données culturelles, est d’une importance stratégique pour les fournisseurs d’IA, puisque les systèmes d’IA ont besoin d’ingurgiter de grandes quantités de données, leur servant de modèles dans leurs productions. Or, des données contenant des créations protégées par un droit de propriété intellectuelle peuvent avoir été obtenues sans autorisation ou sans tenir compte d’un « opt-out », et avoir été effectivement exploitées. Il en va de même concernant des données personnelles (posts Facebook, Instagram, …) potentiellement utilisées pour l’entraînement de modèles d’IA. L’enjeu est alors d’avoir accès à l’information sur les données d’entraînement utilisées par une IA, pour bien des raisons et notamment ouvrir une visibilité aux ayants droits dont des données et/ou créations auraient été mobilisées, quelles qu’en soient les modalités.
Pour ce faire, les fournisseurs d’IA sont désormais soumis à une obligation de transparence qui se concrétise par la mise en place d’une politique de conformité, ainsi que par la mise à disposition au public d’un « résumé suffisamment détaillé » (sufficiently detailed summary) des contenus utilisés pour l’entraînement du modèle d’IA. Ce résumé permet le développement d’une IA de confiance souhaitée au niveau européen (3), en remédiant aux difficultés rencontrées par les titulaires de droits, confrontés à une charge de la preuve disproportionnée concernant l’utilisation de leurs contenus. Pour autant, le résumé doit répondre aux enjeux de la création d’un marché dynamique et équitable de l’IA. Ce qui impose un compromis pour restreindre la quantité d’informations mise à disposition afin de protéger le secret des affaires, moteur d’innovation pour les fournisseurs d’intelligence artificielle. (suite)

La mission à l’origine du rapport approuvé par le CSPLA (4) rappelle à ce titre qu’il convient de « donner à la transparence les conséquences attendues, à savoir créer un marché et permettre la rémunération des contenus » (5). Il s’appuie sur deux principaux points pour justifier son modèle de résumé.
En premier lieu, l’obligation de mettre en place une politique de conformité et celle de mettre à disposition du public un résumé suffisamment détaillé sont indissociables en ce qu’elles participent au même objectif de transparence. A ce titre, et par souci de cohérence avec le « codes de bonne pratique » (code of practice) attendu auprès du bureau de l’IA, la mission considère que la politique de conformité devrait apparaître, au moins dans ses grandes lignes, dans le résumé. La mission explicite certains des principaux éléments de conformité qui devraient figurer dans le résumé. Elle souligne que l’AI Act exige explicitement que la politique de conformité inclut l’« identification et le respect (…) des réserves de droits exprimées conformément à l’article 4, paragraphe 3, de la directive [« Copyright » de 2019 (6)] » (7), mécanisme dont les faiblesses ont été éclairées lors de la récente décision du tribunal régional d’Hambourg dans l’affaire « LAION c/ Robert Kneschke» (8).

Fouille de textes et de données (TDM)
Pour mémoire, le dispositif de ces articles que nous avons commenté (9) permet aux titulaires de droits de s’opposer à la fouille de textes et de données si les œuvres et autres objets protégés ont été réservés « par leurs titulaires de droits de manière appropriée, notamment par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne ». Or, le tribunal allemand a notamment validé l’application des exceptions de « fouille de textes et de données » (TDM) pour l’entraînement des systèmes d’IA. D’autre part, le tribunal allemand a pour la première fois en Europe établi un précédent concernant l’exception de TDM en insistant sur la nécessité pour les fournisseurs d’intelligence artificielle d’adopter des technologies pour respecter les clauses de réserve exprimées au titre de l’article 4 de la directive « Copyright ». En abordant la question de l’opt-out et la possibilité pour les détenteurs de droits de s’opposer à l’utilisation de leur contenu, le tribunal d’Hambourg a noté que l’opt-out exprimé en langage naturel pouvait être considéré comme « machine-lisible », ce qui aura des implications pour la manière dont les « optout » sont formulés et reconnus à l’avenir. Par conséquent, omettre de mentionner la clause de réserve de droits dans le résumé reviendrait à réduire la portée de l’obligation de transparence (10).

Détail du résumé et secret des affaires
Par ailleurs, le modèle de résumé devrait inciter les fournisseurs à préciser les protocoles reconnus par les « moissonneurs » de données qu’ils utilisent, que ce soit directement ou via des tiers et lorsqu’il s’agit de jeux de données obtenus gratuitement ou moyennant paiement auprès de tiers, et si des mesures ont été mises en place pour garantir que ces données ont été collectées en conformité avec la législation applicable, notamment en vérifiant l’existence d’une autorisation ou d’une licence.
En second lieu, le modèle de résumé doit être pensé afin de garantir un niveau de protection suffisant aux titulaires de droit tout en préservant l’innovation et ainsi conserver l’effet utile du texte. La mission du CSPLA souligne que la finalité du résumé telle que rappelée dans les considérants du règlement est d’« aider les parties ayant des intérêts légitimes, y compris les titulaires de droit d’auteur, à exercer et à faire respecter les droits que leur confère la législation de l’Union », sans pour autant porter atteinte au secret des affaires. A ce titre, le degré de détail du résumé doit s’apprécier au regard de cet objectif et de cette limite, afin de garantir l’effet utile du texte (11).
Pour garantir l’effet utile du résumé, le mission propose dans son rapport une approche graduée, ajustant le niveau de détail selon la nature des contenus, tout en veillant à préserver un équilibre avec le respect du secret des affaires. A ce titre, la mission estime que l’information relative aux contenus et le degré détail attendu est fonction du degré de fiabilité des sources. Pour les contenus libres de droit, ainsi que les contenus relevant d’arrangements contractuels, des informations générales peuvent suffire. Pour les autres contenus protégés, la mission estime que le secret des affaires ne saurait justifier de se borner à transmettre la liste des principales sources et donc ne pas transmettre la liste des URL (12), à savoir des adresses des sites web moissonnés. La mission souligne que l’AI Act insiste sur la nécessité de fournir un résumé complet pour permettre aux parties ayant des intérêts légitimes, comme les titulaires de droits d’auteur, d’exercer et de faire respecter leurs droits (13). Si le secret des affaires peut limiter le niveau de détail technique, il ne peut réduire le résumé au point de le rendre inefficace. Ainsi, la mission énonce comme essentielles certaines informations, telles que les URL des sites Internet d’où proviennent les données récupérées, la date de moissonnage, ainsi que la taille et le type de données utilisées. Toutefois, elle précise que des informations plus détaillées, comme les modalités d’utilisation des contenus (par exemple, méthode de filtrage ou tokenisation), relèvent du secret des affaires et ne doivent pas être divulguées dans le résumé public. Néanmoins, le secret des affaires ayant ses limites, ces informations pourront être divulguées dans le cadre d’une réclamation.
Le rapport du CSPLA se base notamment sur l’inopposabilité du secret des affaires au autorités judiciaires et administratives. A ce titre, la Cour de justice de l’Union européenne (CJUE) a considéré dans son arrêt « Dun&Bradstreet Austria GmbH » (14) que le secret des affaires ne saurait conduire à écarter le droit d’un individu, au titre du règlement européen sur la protection des données (RGPD) de comprendre une décision qui l’affecte. Pour la mission, cette solution est transposable aux dispositions de droit d’auteur issues des textes européens : le secret des affaires ne peut conduire, en vidant toute substance le résumé suffisamment détaillé, à écarter le droit qu’un titulaire de droits tire de l’AI Act à disposer d’éléments pouvant l’aider « à exercer et à faire respecter les droits que leur confère la législation de l’Union [européenne] ».
La mission souligne que si le Bureau de l’IA, lors de ses vérifications, n’a pas à examiner chaque œuvre ou contenu protégé individuellement pour contrôler la conformité des résumés fournis, l’AI Act n’interdit pas qu’un résumé inclut une liste des contenus protégés ou moissonnés, à condition que cette liste demeure globalement complète (15). L’exhaustivité de cette liste pourrait et devrait également être contrôlée dans le cadre d’une réclamation.

Droit d’auteur et données personnelles
Ainsi, pour la mission du CSPLA, il s’agit au stade du résumé public d’identifier les sources collectées pour l’entraînement de l’IA, mais pas encore d’explorer comment ces sources ont été utilisées, tenant compte du secret des affaires. Ces informations pouvant être révélées ultérieurement dans le cadre d’une réclamation, la protection des titulaires de droit demeure assurée. Les ingrédients donc… mais pas la recette. Le rapport du CSPLA confirme la lecture que l’on pouvait faire de l’AI Act, selon laquelle « l’obligation de transparence s’étend bien au-delà des contenus protégés par le droit d’auteur et les droits voisins » (16), et intègre notamment les données à caractère personnel. @

* Anne-Marie Pecoraro est avocate spécialisée en droit de
la propriété intellectuelle, des médias et des technologies.