Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet.

Exception de Text and Data Mining
Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés. Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur prochaine du règlement européen sur l’intelligence artificielle – l’AI Act dont le texte final (1) a été signé le 13 juin 2024 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles.

En effet, l’article 53 et l’annexe XI de l’AI Act imposent, entre autres, aux fournisseurs de modèles d’IA à usage général (2) de mettre à disposition des informations sur les données utilisées pour l’entraînement de ces modèles, au moyen d’un document-type qui sera mis à disposition par le bureau de l’IA (AI Office). Ils doivent notamment indiquer comment ces données ont été obtenues et sélectionnées, ainsi que toutes les mesures prises pour détecter les sources de données inadéquates. Pour pouvoir se conformer de manière sereine à ces nouvelles exigences (3), il est indispensable de s’assurer que les données d’entraînement ont été récupérées et collectées dans le respect des droits de propriété intellectuelle et du RGPD, sous peine de risquer des actions en contrefaçon ou des procédures de sanction devant les autorités de contrôle (4). En effet, le contenu d’un site Internet qu’un acteur entend scrapper (« moissonner ») pour constituer une base de données d’entraînement peut à la fois contenir des données à caractère personnel, mais également être protégé au titre du droit d’auteur (5) ou du droit des bases de données (6). Or, par principe, toute reproduction et utilisation d’un contenu protégé par un droit de propriété intellectuelle nécessite d’obtenir l’autorisation du titulaire des droits concernés. Néanmoins, afin de favoriser le développement de l’IA, le code de la propriété intellectuelle (CPI) a introduit, pour le droit d’auteur et le droit des producteurs de bases de données, les exceptions de fouilles de textes et de données (dites de Text and Data Mining) qui permettent de scrapper des données à des fins d’entraînement des modèles, sous réserve de respecter un certain nombre de conditions. Il y a en réalité deux régimes : la fouille de textes et de données à des fins de recherche scientifique (7) et celle à des fins diverses (8).
L’exception de fouille à des fins de recherches scientifique présente l’avantage d’être un droit absolu (le titulaire des droits ne peut pas s’y opposer), sous réserve que l’accès aux données soit réalisé de manière licite (9). Néanmoins, son périmètre est relativement restreint puisque seuls peuvent s’en prévaloir certains acteurs limitativement énumérés (10). La plupart des fournisseurs de systèmes d’IA ne peut donc pas mobiliser cette exception et doit se rabattre sur l’exception générale dite à des fins diverses. Pour pouvoir invoquer le bénéfice de cette exception générale, le fournisseur de système d’IA doit accéder aux données de manière licite et s’assurer que le titulaire des droits de propriété intellectuelle ne s’y est pas opposé.

« Moissonnage » et données personnelles
Les textes précisent que l’opposition du titulaire des droits « n’a pas à être motivée et peut être exprimée par tout moyen », notamment « au moyen de procédés lisibles par machine, y compris des métadonnées, et par le recours à des conditions générales d’utilisation » (11). Pour l’opposition via des procédés techniques, plusieurs outils existent (Robot.txt, AI.txt, TDMRep, …). En pratique, cela signifie que pour pouvoir scrapper les données des sites Internet à des fins d’entraînement des modèles, les fournisseurs de systèmes d’IA ne doivent pas contourner les éventuels dispositifs de protection existants (par exemple un accès restreint par un compte utilisateur) et doivent s’assurer, au moment de l’extraction des données, que les conditions générales d’utilisation (CGU) et/ou mentions légales du site Internet ne contiennent pas de clause interdisant l’extraction des données et que les métadonnées du site Internet n’expriment pas non plus une telle interdiction. L’AI Act confirme ce dernier point (12).
Lorsqu’un titulaire de droits s’est opposé à l’extraction de ses données, le fournisseur de système d’IA n’a d’autre choix que d’obtenir une autorisation expresse (13) au moyen d’un accord de licence ou de partenariat, comme ont récemment pu le faire OpenAI avec Le Monde, Die Welt et El País (14). Une fois ces vérifications opérées, le fournisseur de système d’IA devra suivre des étapes supplémentaires si le contenu qu’il souhaite « moissonner » contient des données à caractère personnel, afin de respecter le RGPD.

Base légale de l’intérêt légitime
Ces derniers mois, la Cnil a publié plusieurs fiches pour guider les fournisseurs de systèmes d’IA (15) au sein desquelles elle clarifie comment appliquer les principes clefs aux spécificités de l’IA. Elle y admet qu’il est possible de fonder les traitements d’entraînement des modèles d’IA sur la base légale de l’intérêt légitime, notamment lorsque les données sont collectées à partir de sources publiques (16), sous réserve de mener une analyse au cas par cas permettant de documenter la légitimité de l’intérêt poursuivi, sa nécessité et le fait qu’il n’y a pas d’atteinte disproportionnée aux intérêts, droits et libertés des personnes. Pour autant, en juin 2024, Noyb a porté plainte – auprès de onze « Cnil » en Europe – contre Meta dont il conteste la faculté de se fonder sur l’intérêt légitime pour récupérer les données de Facebook et Instagram afin d’entraîner ses modèles d’IA. Dans l’attente, Meta a stoppé son projet (17).
La première étape avant de scrapper des données à caractère personnel est de définir la finalité du traitement, à partir de laquelle l’analyse de conformité aux principes de protection des données personnelles pourra être réalisée. A partir de cette finalité (créer une base de données afin d’entraîner des modèles d’IA permettant d’évaluer l’appréciation d’œuvres par le public, développer un LLM capable de répondre à des questions, générer du texte, effectuer des résumés, etc,…), le fournisseur de modèles d’IA devra s’assurer du respect du principe de minimisation, en ne collectant que les données pertinentes et nécessaires pour atteindre son objectif. Concrètement, cela signifie qu’il doit s’interroger en amont sur les catégories de données nécessaires pour l’entraînement du modèle d’IA. En pratique, il devra définir les catégories de données à collecter et mettre en place des filtres permettant d’exclure la collecte de certaines données. Dans sa fiche dédiée au web scraping (18), la Cnil précise que dans l’hypothèse où des données non pertinentes seraient collectées malgré les filtres mis en place, il convient de supprimer ces données, immédiatement après leur collecte ou dès elles ont été identifiées. Elle appelle également à la prudence sur la collecte automatique de données sensibles en invitant les fournisseurs à appliquer des filtres permettant d’écarter la collecte de données sensibles (19) non pertinentes ou à exclure de leurs activités de scraping certains sites comportant par nature ce type de données.
Respecter le RGPD suppose, par ailleurs, d’informer les personnes concernées et de faciliter l’exercice de leurs droits. La Cnil reconnaît (20) qu’en cas de collecte parweb scraping, une information individuelle des personnes pourrait, dans certains cas, être disproportionnée et donc non obligatoire. Elle recommande alors au fournisseur du système d’IA de fournir une information générale (par exemple au sein de sa politique de confidentialité) contenant notamment les catégories de sites sources utilisés avec des liens hypertextes vers ceux-ci, en proposant un modèle dédié. Pour les droits des personnes, elle rappelle qu’un responsable du traitement n’a pas à conserver ou collecter des informations supplémentaires qui ne lui sont pas nécessaires dans le seul but de permettre l’exercice des droits. La Cnil propose néanmoins des exemples de mesures que les fournisseurs de modèles d’IA pourraient mettre en place pour faciliter l’exercice des droits (comme la conservation de métadonnées ou d’informations sur la source des données pour faciliter la recherche d’une personne au sein de la base ou l’indication aux personnes des données à fournir pour les identifier).
La Cnil propose enfin de mettre en place des mesures supplémentaires pour garantir l’équilibre attendu de ces traitements basés sur l’intérêt légitime. Certaines mesures découlant des règles précédemment citées semblent réalisables : exclure par défaut la collecte à partir de certains sites contenant des données intrusives ; prévoir la possibilité de s’opposer au traitement de manière discrétionnaire ; appliquer des procédés d’anonymisation ou de pseudonymisation après la collecte des données. D’autres semblent moins pragmatiques.

AI Office : recommandations très attendues
Certains acteurs pourraient ainsi saisir l’opportunité de remonter leurs questionnements, difficultés pratiques, appréciation des règles dans le cadre de la consultation publique à laquelle sont soumises certaines fiches jusqu’au 15 septembre 2024 (21) ou répondre au questionnaire (22). A l’aune de l’entrée en vigueur de l’AI Act, les fournisseurs de modèles d’IA à usage général attendront donc les précieuses recommandations et modèles du bureau de l’IA, tout récemment créé (23), sur les documents à produire pour les sources de données d’entraînement, afin de leur permettre d’engager les travaux nécessaires à la compilation de ces informations. @

Droit de la consommation, propriété intellectuelle et droit pénal : les enjeux juridiques du métavers

Les défis juridiques posés par les métavers ne sont pas inédits. Mais la clé pour instaurer un climat de confiance dans le monde virtuel réside dans une adaptation proactive du cadre réglementaire actuel pour faciliter l’intégration harmonieuse et sécurisée du métavers dans notre société.

Par Arnaud Touati, avocat associé, et Dany Sawaya, juriste, Hashtag Avocats.

Le métavers est un environnement fictif en 3D, interactif et immersif, qui combine le monde réel avec des mondes virtuels. A l’intérieur, les individus peuvent incarner des avatars et interagir avec d’autres personnes ou avec des objets numériques. Imaginons un immense jeu vidéo multijoueur en ligne, regroupant divers univers de jeu où il est possible de naviguer librement. Une illustration saisissante de cette vision a été présentée dans le film « Ready Player One » de Steven Spielberg, sorti en 2018.

L’avatar, sujet de droit indépendant ?
Le métavers suit une trajectoire similaire aux enjeux soulevés par le Web, et plus récemment par la blockchain (chaîne de blocs, en français). Il est indéniable que, même dans un monde virtuel, la règle de droit continue à s’appliquer. Le métavers, tout comme la blockchain et Internet de manière générale, revêt une dimension intrinsèquement internationale. Le métavers est également un terrain de jeu fertile pour l’innovation et le développement. La France, consciente de cette opportunité, cherche à faire du métavers une priorité et envisage d’utiliser les Jeux Olympiques de 2024 à Paris (du 26 juillet au 11 août 2024) comme catalyseur pour rassembler les acteurs français des métavers. Toutefois, le développement du métavers soulève des questions juridiques complexes dans divers domaines tels que le droit de la consommation, la propriété intellectuelle, et le droit pénal. L’anticipation et l’encadrement juridique du métavers sont indispensables pour instaurer un climat de confiance et garantir une utilisation responsable et sécurisée de cette nouvelle frontière numérique.

Défis et considérations juridiques du métavers en matière de consommation. Le métavers pose des défis inédits en matière de droit de la consommation. Par exemple, comment qualifier les contrats conclus entre avatars ? La capacité juridique de l’avatar repose-t-elle dans celle de l’utilisateur qui se trouve « derrière » ou l’avatar peut-il être reconnu comme un sujet de droit indépendant ? Dans ce monde virtuel, les règles de vente et de prestation de services ne sont pas encore clairement définies. Bien que le code de la consommation reconnaisse l’absence de présence physique simultanée des parties contractantes et l’utilisation de « techniques de communication à distance » pour qualifier un contrat à distance (1), la question se pose de savoir si cela est suffisant pour appréhender une transaction dans le métavers. On peut envisager que la capacité juridique de l’avatar repose dans celle de l’utilisateur qui le contrôle, faisant de l’avatar une extension légale de l’utilisateur, ou que l’avatar soit reconnu en tant que sujet de droit indépendant. La validité des contrats conclus entre avatars soulève également des interrogations quant à leur qualification juridique. Concernant la qualification du contrat comme « à distance », cela implique l’absence de présence physique simultanée des parties et « le recours exclusif à une ou plusieurs techniques de communication à distance jusqu’à la conclusion du contrat », cette qualification peut être appliquée dans le contexte du métavers. Ainsi, on peut envisager que les avatars qui recourent à un mode virtuel de communication au sein du métavers représentent une autre forme de « technique de communication à distance ». Quant à la qualification du contrat comme « hors établissement », qui repose sur l’exigence de « la présence physique simultanée des parties »soit au lieu de la conclusion soit au lieu de la sollicitation, elle n’est évidemment pas transposable dans le métavers.

Protection des droits de propriété intellectuelle dans le métavers. Le métavers fait émerger de nouvelles dynamiques économiques, accentuées par l’avènement des NFT, ces jetons non-fongibles (2) qui révolutionnent le concept de la propriété. Les achats dans le métavers peuvent être réalisés en devise nationale ou en cryptomonnaies, permettant l’achat, la vente, et la possession d’articles numériques uniques, inscrits sur une blockchain pour garantir leur authenticité.

Droit de marque : cas des NFT « Birkin »
Cependant, cette innovation soulève d’importantes questions quant à la nature et à l’étendue du droit de propriété dans le métavers, notamment en ce qui concerne le droit de marque et le droit d’auteur. En matière de droit de marque, le code de la propriété intellectuelle (CPI) dispose que « l’enregistrement de la marque confère à son titulaire un droit de propriété sur cette marque pour les produits ou services qu’il a désignés » (3). Ainsi, la protection de la marque s’applique uniquement aux produits et services spécifiés lors de l’enregistrement. La question est de savoir si un bien ou un service réel peut être considéré comme identique ou similaire à son équivalent virtuel. Un exemple notable est le cas de Mason Rothschild, de son vrai nom Sonny Estival : le 8 février 2023, le jury du tribunal de Manhattan a reconnu l’artiste américain coupable de contrefaçon de marque, de dilution de marque et de cybersquattage pour avoir vendu des NFT représentant des sacs Birkin d’Hermès (4) sans autorisation – dans le cadre de sa collection d’œuvres d’art numériques « MetaBirkins » (5).

Droits d’auteur et (meta)données personnelles
Concernant cette fois le droit d’auteur, le CPI protège les droits des auteurs sur toutes les œuvres de l’esprit, sans distinction de genre, de forme, de mérite ou de destination (6). Les œuvres de l’esprit ne sont pas précisément définies par la loi, mais le CPI fournit une liste non exhaustive des créations pouvant être protégées (7). Par ailleurs, le CPI dispose que « la transmission des droits de l’auteur est subordonnée à la condition que chacun des droits cédés fasse l’objet d’une mention distincte dans l’acte de cession et que le domaine d’exploitation des droits cédés soit délimité quant à son étendue et à sa destination, quant au lieu et quant à la durée » (8). Par conséquent, tout ce qui n’est pas expressément cédé dans le contrat reste acquis à l’auteur, ce qui pose un risque d’action en contrefaçon. Les contrats de cession doivent donc impérativement déterminer le domaine d’exploitation des droits incluant explicitement l’exploitation dans le métavers pour éviter toute ambiguïté.
Données personnelles et vie privée dans les univers virtuels. Du point de vue de la protection des données, l’émergence des métavers marque une évolution significative des pratiques d’accès et d’interaction. Ces technologies immersives permettent une acquisition d’informations allant au-delà des simples paroles pour inclure les mouvements et émotions, soulevant ainsi des préoccupations quant à la protection de la vie privée. Les métavers reposent sur la création d’avatars qui naviguent à travers des interfaces, générant des données personnelles. Ces derniers soulèvent des inquiétudes majeures quant à la collecte, la détection et l’interprétation des comportements oculaires et émotionnels. Par exemple, des casques comme le Quest Pro de Meta intègrent déjà des fonctionnalités telles que le suivi du regard – à l’instar du Vision Pro d’Apple – et la reconnaissance des expressions du visage. Les données sur le rythme cardiaque, les expressions faciales et les mouvements peuvent être exploitées à d’autres fins, telles que la personnalisation des contenus et la publicité ciblée, introduisant des formes avancées de marketing.
La collecte et le traitement des données dans ces univers ne diffèrent pas fondamentalement de ceux que nous connaissons, et les obligations des responsables de traitement demeurent les mêmes. Si les avatars sont interprétés comme des manifestations numériques des sujets de droit, il serait concevable d’appliquer sans difficulté des protections similaires à celles des données personnelles utilisées dans les mondes virtuels, comparables à celles existant dans le monde réel. Dans ce contexte, les données personnelles transitant seraient donc soumises au règlement général sur la protection des données (RGPD), avec les droits d’accès, modification et suppression des données. D’un point de vue technique, deux défis subsistent. Tout d’abord, l’application des principes de transparence et d’information, par exemple, l’identification des collecteurs de données peut être complexe dans les univers immersifs. Ensuite, la capacité des autorités de régulation à faire respecter les principes du RGPD dans les métavers peut également soulever des défis.
La régulation des traitements des données mentales, englobant toute information organisée et traitée pour déduire l’état d’esprit d’une personne, incluant ses états cognitif, affectif et conatif, est une nécessité. Cette catégorie englobe des aspects tels que les images cérébrales, les émotions, les souvenirs et les intentions. Il semble fort probable que ces données, qu’elles soient des signaux physiques extérieurs d’émotions ou leurs inférences, soient considérées comme des données à caractère personnel, en particulier si elles permettent de singulariser un individu. Cependant, la qualification actuelle des données sensibles définies par le RGPD ne couvre pas explicitement l’état d’esprit, l’état affectif ou les émotions. Se pose alors la question de savoir s’il serait judicieux d’étendre la portée de la définition énoncée à l’article 9 du RGPD afin d’y inclure ces types de données.
Dans tous les cas, la collecte de ces données n’est pas formellement interdite en soi. Cependant, les opérateurs opérant dans le métavers devront obligatoirement obtenir le consentement – explicite, libre et éclairé – de l’utilisateur pour traiter ce type de données. De plus, le responsable du traitement devra déterminer la finalité pour laquelle ces données sont traitées et limiter ce traitement aux seules finalités définies. Mis en perspective avec le règlement européen sur l’intelligence artificielle (AI Act), se pose également la question de savoir si ces traitements seront considérés comme présentant un niveau de risque inacceptable, les rendant ainsi interdits, ou élevé, nécessitant alors obligatoirement une étude d’impact.

Risque pénal, bien réel dans le métavers
Implications du droit pénal dans le métavers.
Du point de vue du droit pénal, les mêmes dérives observées dans le monde réel se manifestent également dans le métavers : vol, agressions, escroqueries, ainsi que les infractions de presse telles que l’injure, la diffamation et l’incitation à la haine, entre autres. Par exemple, le code pénal impose que la chose volée soit matérielle, c’est-à-dire, en principe un bien meuble corporel. Toutefois, la jurisprudence est venue assouplir cette interprétation en 2015, en admettant que les données informatiques puissent faire l’objet d’un vol (9). Ainsi, appliqué au métavers, cela suggère que cette infraction puisse s’adapter aux évolutions des pratiques dans le monde virtuel. A noter que la Cour suprême néerlandaise a, elle, déjà qualifié pénalement le vol virtuel (10). @

Acteurs de l’IA, la Cnil vous adresse ses premières recommandations : à vous de jouer !

La Commission nationale de l’informatique et des libertés (Cnil) a publié le 8 avril 2024 sept premières fiches « pour un usage de l’IA respectueux des données personnelles ». D’autres sont à venir. Ces règles du jeu, complexes, sont les bienvenues pour être en phase avec le RGPD et l’AI Act. Par Anne-Marie Pecoraro*, avocate associée, UGGC Avocats L’intelligence artificielle (IA) conduit à questionner de manière plus exigeante et approfondie la protection des données personnelles. Les principes fondateurs du RGPD (1) doivent non seulement être pleinement rappelés et appliqués, mais ils doivent même l’être de manière plus dynamique et exigeante. Un exemple : des données qui auraient précédemment pu être considérées pseudonymisées ou même anonymisées, pourront faire l’objet de calculs et de recoupements massifs, qui pourraient aboutir à identifier à nouveau les personnes, grâce à l’utilisation de l’IA. Sept premières fiches pratiques L’entraînement des IA appelle des données personnelles comme l’image et la voix des personnes, d’une quantité sidérale sans précédent. Il appartient aux entreprises et organisations nationales et internationales de procéder à la mise en conformité avec l’AI Act, lequel a été adopté 13 mars 2024 par le Parlement européen (2). Parallèlement et le même jour en France, la commission de l’IA – installée depuis septembre 2023 auprès du Premier ministre – a remis au président de la République son rapport (3) qui recommande notamment un assouplissement des contraintes liées à l’utilisation, par l’IA, de données personnelles. Cette commission IA appelle à « transformer notre approche de la donnée personnelle pour protéger tout en facilitant l’innovation au service de nos besoins ». Le 8 avril 2024, c’était au tour de la Cnil de publier des fiches pratiques consacrées à la phase de développement des systèmes d’IA. L’autorité administrative indépendante accompagne les acteurs de l’IA depuis deux ans déjà, comme elle ne manque pas de le rappeler dans son dernier rapport annuel (4), à travers notamment la création d’un service dédié, la publication de ressources et webinaires, ainsi que l’établissement d’une feuille de route articulée autour de quatre piliers : appréhender, guider, fédérer et accompagner, auditer. Ces recommandations font suite à la consultation publique entreprise en octobre 2023, laquelle a réuni une quarantaine de contributions d’acteurs divers (5). Afin de présenter ces fiches pratiques (6), un webinaire a été organisé par la Cnil le 23 avril dernier. L’occasion pour celle-ci d’apporter ses derniers éclairages. Concernant le périmètre d’application, il convient premièrement de préciser que ces fiches pratiques n’ont vocation à s’intéresser qu’à la phase de développement de systèmes d’IA (conception de base de données, entraînement, apprentissage) impliquant un traitement de données personnelles pour les cas d’usage pour lesquels le RGPD est applicable (7). Celles-ci n’ont donc pas vocation à régir la phase dite de « déploiement » d’un système d’IA. Retenant la même définition des « systèmes d’IA » que l’AI Act, sont notamment concernés par ces recommandations : les systèmes fondés sur l’apprentissage automatique, ceux fondés sur la logique et les connaissances (moteurs d’inférence, bases de connaissance, systèmes experts, …), ou encore les systèmes hybrides. Afin d’aider les professionnels dans leur mise en conformité, la Cnil a défini, à travers sept fiches de recommandations, les bonnes pratiques à respecter sans que celles-ci soient toutefois contraignantes. Ces recommandations tiennent compte des dispositions de l’AI Act et ont vocation à les compléter. La Cnil profite de ces lignes directrices pour rappeler les principes fondamentaux (licéité, transparence, minimisation, exactitude, limitation de conservation des données, …) et obligations majeures découlant du RGPD inhérentes à tout traitement, en les précisant et les adaptant au mieux à l’objet traité : les systèmes d’IA. Si les recommandations qui suivent concernent majoritairement les responsables de traitement, les sous-traitants ne sont pas délaissés, repartant également avec leur lot de bonnes pratiques. Peuvent à ce titre être cités : un respect strict des instructions du responsable de traitement, la conclusion d’un contrat de sous-traitance conforme à la réglementation en matière de données personnelles ou encore, l’obligation de s’assurer de la sécurité des données sous-traitées (8). Apports majeurs des recommandations Prenez soin de définir une finalité déterminée, explicite et légitime pour le traitement projeté. Deux situations sont clairement distinguées par la Cnil, selon que l’usage opérationnel en phase de déploiement du système d’IA est d’ores et déjà identifié, ou non, dès la phase de développement. Dans la première hypothèse, il est considéré que la finalité en phase de développement suivra celle poursuivie en phase de déploiement. De sorte que si celle-ci est suffisamment déterminée, explicite et légitime, alors la finalité en phase de développement le sera également. Dans la seconde hypothèse, et notamment en présence de systèmes d’IA à usage général, la Cnil insiste sur la nécessité de prévoir une finalité « conforme et détaillée ». Elle livre des exemples de finalités qu’elle considère, ou non conformes, précisant à ce titre que le simple « développement d’une IA générative » n’est pas une finalité conforme car jugée trop large et imprécise. Finalité conforme et responsabilités précises La méthode à suivre est alors révélée : une finalité ne sera conforme que si elle se réfère « cumulativement au“type” du système développé et aux fonctionnalités et capacités techniquement envisageables » (9). Le secteur de la recherche n’est bien sûr pas oublié. Une tolérance dans le degré de précision de l’objectif ou encore dans la spécification des finalités est évoquée, sans laisser de côté les éventuelles dérogations ou aménagements applicables. Déterminez votre rôle et vos responsabilités : suis-je responsable de traitement, sous-traitant, ou encore responsableconjoint ? Le développement d’un système d’IA peut nécessiter l’intervention de plusieurs acteurs. Dès lors, identifier son rôle au sens du RGPD peut être parfois délicat et les éclairages de la Cnil sur la question sont les bienvenus. Pour rappel, le responsable de traitement est « la personne […] qui, seul ou conjointement détermine les objectifs et moyens du traitement » (10). Cette qualité emporte son lot d’obligations et de responsabilités, d’où la nécessité de la déterminer avec précision. Les acteurs pourront se référer à la fiche donnant des exemples d’analyse permettant d’identifier son rôle au cas par cas (11). Effectuez un traitement licite et respectueux des principes fondamentaux. Un rappel des principes à respecter pour tout traitement ne mange pas de pain mais épargne bien des soucis en cas de contrôle. La Cnil s’attarde notamment sur l’obligation de choisir, parmi celles prévues par le RGPD, la base légale la plus adéquate au traitement projeté. Pour le développement de systèmes d’IA, elle explore cinq bases légales envisageables (12) : le consentement, l’intérêt légitime, l’obligation légale, la mission d’intérêt public ou encore le contrat. En cas de réutilisation de données, des vérifications seront à mener et, là encore, les recommandations de la Cnil différent selon l’hypothèse rencontrée et notamment en fonction de la source desdites données (données publiquement accessibles ou collectées par des tiers, …). A titre d’exemple, pour une réutilisation de données collectées par le fournisseur lui-même pour une finalité initiale différente, la Cnil impose, sous certaines conditions, un « test de comptabilité » (13) permettant de s’assurer que la finalité poursuivie est compatible avec la finalité initiale, et rappelle les obligations de fonder son traitement ultérieur sur une base légale valable sans oublier la nécessité d’informer les personnes concernées. Par ailleurs, la Cnil révèle les cas possibles de réutilisation de données collectées par des tiers, ainsi que les obligations qui incombent au tiers et ainsi qu’au réutilisateur de ces données. Respectez les principes fondamentaux. Le gendarme des données insiste également sur la nécessité de respecter les principes fondamentaux. Ce respect doit s’imposer à tout stade du développement d’un système d’IA, dès sa conception « privacy by design » (14), mais également lors de la collecte et de la gestion des données (15). La Cnil s’attarde particulièrement sur le principe de minimisation, lequel impose de ne traiter que les données « adéquates, pertinentes et limitées à ce qui est nécessaire au regard des finalités » (16) déterminées. Si la Cnil s’attache à soutenir que le respect de ce principe « n’empêche pas l’utilisation de larges bases de données » (17) et notamment de données publiquement accessibles (18), il implique nécessairement pour un responsable de traitement de repenser l’entraînement et la conception de ses systèmes d’IA en se posant concrètement les questions suivantes : « Les données utilisées et/ou collectées sont-elles vraiment utiles au développement du système souhaité ? Ma sélection est-elle pertinente ? Pourrais-je mettre en place une méthode à suivre plus respectueuse des droits et libertés des personnes concernées ? Si oui, par quels moyens techniques ? ». A titre de bonnes pratiques, la Cnil recommande d’ailleurs d’associer au développement du projet un comité éthique et de mener une étude pilote afin de s’assurer de la pertinence de ses choix en matière de conception d’un système d’IA (19). Par ailleurs et conformément au principe de limitation des données de conservation (20), les durées de conservation des données utilisées seront à déterminer préalablement au développement du système d’IA. La Cnil appelle, à ce titre, à consulter son guide pratique sur les durées de conservation (21). Ces durées devront faire l’objet de suivi, de sorte que les données qui ne seront plus nécessaires devront être supprimées. Le respect de ce principe ne s’oppose pas à ce que, sous certaines conditions, des données soient conservées pour des durées plus longues, notamment à des fins de maintenance ou d’amélioration du produit. Analyse d’impact (AIPD) nécessaire Enfin, réalisez une analyse d’impact quand c’est nécessaire. L’analyse d’impact sur la protection des données (AIPD) permet d’évaluer et de recenser les risques d’un traitement en vue d’établir un plan d’action permettant de les réduire. Cette analyse AIPD (22) est, selon les cas, obligatoire ou bien fortement recommandée. A la lumière de la doctrine de la Cnil et de l’AI Act, les entreprises et organisations doivent à présent mettre en place leur mise en conformité, avec des points très réguliers. @

* Anne-Marie Pecoraro est avocate spécialisée en droit de la propriété intellectuelle, des médias et des technologies.

Data Act et AI Act, ou l’art de ménager la chèvre (innovation) et le chou (droits individuels)

Le Data Act et l’AI Act ont un objectif commun : tirer profit des opportunités offertes par les données, qu’elles soient issues d’objets connectés pour le premier, ou de modèles d’intelligence artificielle pour le second, tout en protégeant les droits des individus contre les dérives.

Par Anne-Marie Pecoraro*, avocate associée, UGGC Avocats

Les premiers mois de l’année 2024 ont été marqués par des développements substantiels sur le plan réglementaire concernant les données en Europe, développements à la lumière desquels le règlement général sur la protection des données (RGPD) est pensé de manière dynamique. Avec deux autres règlements que sont le Data Act (déjà en vigueur) et le AI Act (toujours en cours d’examen), l’Union européenne (UE) tente de préserver cet élan innovateur tout en assurant une protection efficace des droits individuels.

Socle solide de règles sur les données
Adoption du Data Act :
le 11 janvier 2024, le Conseil de l’UE a adopté le règlement portant sur des règles harmonisées en matière d’accès et d’utilisation équitables des données. Le texte vise à « relever les défis et à libérer les opportunités offertes par les données dans l’[UE], en mettant l’accent sur l’accès équitable et les droits des utilisateurs, tout en assurant la protection des données à caractère personnel » (1). Il s’inscrit dans une stratégie européenne pour les données afin de créer un marché unique des données garantissant la compétitivité et la souveraineté de l’Europe.
Projet d’AI Act : le 2 février 2024, le Conseil de l’UE a adopté à l’unanimité la proposition de règlement du Parlement européen et du Conseil de l’UE établissant des règles harmonisées concernant l’intelligence artificielle, texte pour lequel un accord avait été trouvé dès décembre 2023 (2). Ce texte est pour le moment d’une ambition unique au monde. Le Data Act et prochainement l’AI Act prendront donc place aux côtés du Digital Services Act (entré en vigueur le 25 août 2023 dans le but de responsabiliser les plateformes numériques et de lutter contre la diffusion de contenus illicites ou préjudiciables ou de produits illégaux), du Digital Markets Act (entré en vigueur le 2 mai 2023 et visant à mieux encadrer les activités économiques des grandes plateformes numériques) et du RGPD (entré en application le 25 mai 2018 dans le but de protéger les droits des personnes concernées par un traitement de leurs données personnelles).

A eux cinq, ces règlements européens forment les principaux piliers de la régulation des plateformes et données en Europe. Un sixième texte, le Digital Governance Act, entré en vigueur le 23 juin 2022, concerne également les données, en traitant principalement du secteur public. Il s’agit de réglementer par-delà les frontières en s’appliquant aussi à l’international. Cette réglementation, devenue cruciale pour rechercher un usage éthique, transparent et équitable des données traitées massivement, demeurera exceptionnelle en ce qu’elle s’érige à un échelon européen et transnational capable d’atteindre des entreprises de toutes tailles, y compris les plus grandes, installées hors d’Europe. L’article 3 du Data Act prévoit que le règlement s’applique dès qu’un produit connecté ou un service connexe est mis à disposition sur le territoire de l’UE et/ou qu’un utilisateur ou destinataire de données sont situés dans les Vingt-sept. Et ce, quel que soit le lieu d’établissement du détenteur de données ou du fournisseur de services de traitement de données.
De la même manière, l’article 2 de l’AI Act prévoit que le règlement s’appliquera dès qu’un système d’IA sera mis sur le marché de l’UE ou qu’un utilisateur de système d’IA est établi ou est localisé sur le territoire des Vingt-sept, ou encore que le contenu généré par l’IA est utilisé au sein de l’UE. Le but est de ne pas favoriser les acteurs non européens au détriment des entreprises locales. Il s’agit donc, comme pour le RGPD, d’assurer une protection efficace des citoyens européens sans entraver la compétitivité des entreprises européennes. Les textes cherchent aussi à ne pas décourager les entreprises européennes à innover, en ayant notamment pour effet d’imposer de manière extraterritoriale, même aux plus grandes entreprises internationales, des obligations. Les Gafam ont mis en avant les risques liés notamment au AI Act, la mise en conformité entraînant des coûts importants.

Transparence et secret des affaires : équilibre
Un enjeu du Data Act et de l’AI Act est de trouver un équilibre entre la transparence dans le traitement des données et la préservation du secret des affaires, afin de ne pas freiner l’innovation :
• Le Data Act : la maîtrise par l’utilisateur de ses données limitée par le secret des affaires. L’article 3 du Data Act prévoit l’obligation pour les entreprises concevant et fabriquant des objets connectés et des services connexes de rendre, par défaut, les données et métadonnées générées par ces objets et/ou services connexes facilement accessibles à l’utilisateur, voire lorsque cela est « pertinent et techniquement possible » directement accessibles à l’utilisateur par une simple demande électronique. A ce sujet, l’article 3.2 du Data Act prévoit qu’un certain nombre d’informations précontractuelles doivent être délivrées par le vendeur, le loueur ou le bailleur d’objets connectés « de manière claire et compréhensible ». Ces informations sont notamment relatives au type, format et volume estimé de données générées par l’objet en question ou encore à la capacité de l’objet de générer des données en continu et en temps réel (3). Aussi, l’article 5 du Data Act prévoit le droit pour l’utilisateur de partager des données avec des tiers.

Les obligations du détenteur de données
Cependant, afin d’assurer la compétitivité des entreprises en Europe, le texte prévoit, que ce soit au sujet du droit d’accès ou du droit de partage des données par l’utilisateur à des tiers, le respect du secret des affaires par lequel seraient protégées certaines données. Le détenteur de la donnée a ainsi l’obligation de recenser les données ou métadonnées protégées en tant que secret des affaires et de mettre en place des « mesures techniques et organisationnelles proportionnées » nécessaires à la préservation de la confidentialité des données partagées. Le texte prévoit notamment la possibilité d’élaboration de clauses de confidentialité entre le détenteur de données et l’utilisateur et/ou le tiers, ou encore l’adoption de « codes de conduite ».
A défaut d’accord ou si l’utilisateur ou le tiers contrevient aux mesures convenues avec le détenteur du secret des affaires, le détenteur de données peut bloquer ou suspendre le partage des données confidentielles. Il devra alors avertir l’utilisateur ou le tiers concerné et le notifier à l’autorité compétente. De surcroît, même si l’utilisateur ou le tiers respecte les mesures convenues avec le détenteur de données, ce dernier peut démontrer « qu’il est très probable qu’il subisse un préjudice économique grave du fait de la divulgation de secrets d’affaires » et ainsi refuser une demande d’accès pour les données en question en avertissant et en expliquant les raisons précises de sa décision et en le notifiant à l’autorité compétente. La décision du détenteur de données est toutefois susceptible de recours par l’utilisateur ou le tiers devant une juridiction d’un Etat membre et peut aussi être l’objet d’une réclamation auprès de l’autorité compétente. Enfin, l’utilisateur ou le tiers ont l’interdiction de se servir des données obtenues pour concurrencer le produit connecté en question.
L’AI Act : la « synthèse suffisamment détaillée » des données d’entraînement au cœur des interrogations. L’AI Act réalisera en substance le même compromis que le Data Act en ce qui concerne les données d’entraînement qui sont utilisées par les IA pour générer du contenu (4). En effet, le texte prévoit que les fournisseurs d’IA à usage général devront prendre des mesures pour respecter le droit d’auteur, en particulier le droit d’opposition des ayants droit, peu importe la juridiction où l’entraînement a lieu. Ces mêmes fournisseurs devront également, afin d’accroître la transparence sur les données d’entrainement, publier une « synthèse suffisamment détaillée » de ces données. Cette synthèse devra être globalement exhaustive dans sa portée plutôt que techniquement détaillée afin de faciliter aux parties ayant des intérêts légitimes, notamment les ayants-droits, l’exercice de leurs droits. Le texte donne simplement de vagues exemples d’informations fournies au titre de la synthèse détaillée, comme l’énumération des principales collections de données ou les ensembles utilisés pour former le modèle. Les fournisseurs de modèles d’IA gratuits et open source seront exemptés de cette obligation sauf s’ils présent un risque systémique, afin d’inciter leur développement dans la mesure où ils contribuent à la recherche à l’innovation sur le marché et peuvent être des sources de croissance importante pour l’économie de l’UE. Le « Bureau de l’IA » – « AI Office » tel que prévu dans la version consolidée de l’AI Act (5) datée du 21 janvier (6) – devrait entrer en vigueur le 21 février 2024 (7). Il fournira des modèles de synthèses à destination des fournisseurs d’IA concernés et veillera au respect de ces dispositions. La Commission européenne a d’ailleurs, dans une déclaration (8) publiée après l’adoption du texte, réaffirmé le rôle primordial du Bureau de l’IA dans la nouvelle réglementation et dans lequel la France a bien l’intention d’être représentée afin de faire entendre sa voix (9).
Cependant, afin de préserver l’innovation d’une règlementation trop encombrante, l’AI Act prévoit que les rédacteurs de cette synthèse suffisamment détaillée devront prendre en considération le besoin de protéger le secret des affaires et les informations confidentielles. Attention toutefois, à la différence du Data Act, cette mention figure dans les considérants et non pas dans le corps du texte du règlement.
Le Data Act a été pensé pour favoriser l’accès par les petites et moyennes entreprises (PME) à des données pertinentes et leur permettre ainsi d’innover et de rivaliser face à de grandes entreprises qui possèdent déjà une puissance économique considérable sur le marché. C’est précisément pour cette raison que le texte a exclu les entreprises désignées en tant que « contrôleur d’accès » au sens de l’article 3 du DMA (10) du bénéfice de la désignation en tant que « tiers »au sens du Data Act et donc de l’accès aux données issues d’objets connectés et services connexes par le biais du droit de partage de l’utilisateur.

Ménager les PME, éviter les monopoles
Concernant l’AI Act, la Commission européenne a lancé le 24 janvier 2024 des mesures visant à soutenir les jeunes pousses et les PME européennes dans le développement de l’IA (11). Cette volonté se retrouve donc logiquement dans le texte de l’AI Act dont les rédacteurs ont souhaité accélérer l’accès au marché pour les PME en éliminant les obstacles. Le texte entend ainsi permettre des moyens simplifiés de conformité pour les entreprises de plus petite taille et éviter un monopole des plus grandes entreprises dotées d’une grande force de frappe, comme OpenAI. @

* Anne-Marie Pecoraro est avocate spécialisée en droit de la
propriété intellectuelle, des médias et des technologies

Données produites par l’Internet des objets et l’informatique en nuage : ce que dit le Data Act

Le législateur européen poursuit ses travaux en vue de créer un marché unique des données. La dernière avancée en date : le règlement sur les données, dit « Data Act », entré en vigueur le 11 janvier 2024. Il sera applicable à compter du 12 septembre 2025. Tour d’horizon de ses principales dispositions.

Par Sandra Tubert, avocate associée, et Antoine Tong, avocat, Algo Avocats