Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet. Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés.

Exception de Text and Data Mining
Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur le 1er août 2024 du règlement européen sur l’intelligence artificielle – l’AI Act publié au JOUE du 12 juillet et applicable à partir du 2 août 2026 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles. En effet, l’article 53 et l’annexe XI de l’AI Act imposent, entre autres, aux fournisseurs de modèles d’IA à usage général (1) de mettre à disposition des informations sur les données utilisées pour l’entraînement de ces modèles, au moyen d’un document-type qui sera mis à disposition par le bureau de l’IA (AI Office). Ils doivent notamment indiquer comment ces données ont été obtenues et sélectionnées, ainsi que toutes les mesures prises pour Continuer la lecture

Acteurs de l’IA, la Cnil vous adresse ses premières recommandations : à vous de jouer !

La Commission nationale de l’informatique et des libertés (Cnil) a publié le 8 avril 2024 sept premières fiches « pour un usage de l’IA respectueux des données personnelles ». D’autres sont à venir. Ces règles du jeu, complexes, sont les bienvenues pour être en phase avec le RGPD et l’AI Act.

Par Anne-Marie Pecoraro*, avocate associée, UGGC Avocats

L’intelligence artificielle (IA) conduit à questionner de manière plus exigeante et approfondie la protection des données personnelles. Les principes fondateurs du RGPD (1) doivent non seulement être pleinement rappelés et appliqués, mais ils doivent même l’être de manière plus dynamique et exigeante. Un exemple : des données qui auraient précédemment pu être considérées pseudonymisées ou même anonymisées, pourront faire l’objet de calculs et de recoupements massifs, qui pourraient aboutir à identifier à nouveau les personnes, grâce à l’utilisation de l’IA.

Sept premières fiches pratiques
L’entraînement des IA appelle des données personnelles comme l’image et la voix des personnes, d’une quantité sidérale sans précédent. Il appartient aux entreprises et organisations nationales et internationales de procéder à la mise en conformité avec l’AI Act, lequel a été adopté 13 mars 2024 par le Parlement européen (2). Parallèlement et le même jour en France, la commission de l’IA – installée depuis septembre 2023 auprès du Premier ministre – a remis au président de la République son rapport (3) qui recommande notamment un assouplissement des contraintes liées à l’utilisation, par l’IA, de données personnelles. Cette commission IA appelle à « transformer notre approche de la donnée personnelle pour protéger tout en facilitant l’innovation au service de nos besoins ».

Data Act et AI Act, ou l’art de ménager la chèvre (innovation) et le chou (droits individuels)

Le Data Act et l’AI Act ont un objectif commun : tirer profit des opportunités offertes par les données, qu’elles soient issues d’objets connectés pour le premier, ou de modèles d’intelligence artificielle pour le second, tout en protégeant les droits des individus contre les dérives.

Par Anne-Marie Pecoraro*, avocate associée, UGGC Avocats

Les premiers mois de l’année 2024 ont été marqués par des développements substantiels sur le plan réglementaire concernant les données en Europe, développements à la lumière desquels le règlement général sur la protection des données (RGPD) est pensé de manière dynamique. Avec deux autres règlements que sont le Data Act (déjà en vigueur) et le AI Act (toujours en cours d’examen), l’Union européenne (UE) tente de préserver cet élan innovateur tout en assurant une protection efficace des droits individuels.

Socle solide de règles sur les données
Adoption du Data Act :
le 11 janvier 2024, le Conseil de l’UE a adopté le règlement portant sur des règles harmonisées en matière d’accès et d’utilisation équitables des données. Le texte vise à « relever les défis et à libérer les opportunités offertes par les données dans l’[UE], en mettant l’accent sur l’accès équitable et les droits des utilisateurs, tout en assurant la protection des données à caractère personnel » (1). Il s’inscrit dans une stratégie européenne pour les données afin de créer un marché unique des données garantissant la compétitivité et la souveraineté de l’Europe.
Projet d’AI Act : le 2 février 2024, le Conseil de l’UE a adopté à l’unanimité la proposition de règlement du Parlement européen et du Conseil de l’UE établissant des règles harmonisées concernant l’intelligence artificielle, texte pour lequel un accord avait été trouvé dès décembre 2023 (2). Ce texte est pour le moment d’une ambition unique au monde. Le Data Act et prochainement l’AI Act prendront donc place aux côtés du Digital Services Act (entré en vigueur le 25 août 2023 dans le but de responsabiliser les plateformes numériques et de lutter contre la diffusion de contenus illicites ou préjudiciables ou de produits illégaux), du Digital Markets Act (entré en vigueur le 2 mai 2023 et visant à mieux encadrer les activités économiques des grandes plateformes numériques) et du RGPD (entré en application le 25 mai 2018 dans le but de protéger les droits des personnes concernées par un traitement de leurs données personnelles).
A eux cinq, ces règlements européens forment les principaux piliers de la régulation des plateformes et données en Europe. Un sixième texte, le Digital Governance Act, entré en vigueur le 23 juin 2022, concerne également les données, en traitant principalement du secteur public. Il s’agit de réglementer par-delà les frontières en s’appliquant aussi à l’international. Cette réglementation, devenue cruciale pour rechercher un usage éthique, transparent et équitable des données traitées massivement, demeurera exceptionnelle en ce qu’elle s’érige à un échelon européen et transnational capable d’atteindre des entreprises de toutes tailles, y compris les plus grandes, installées hors d’Europe. L’article 3 du Data Act prévoit que le règlement s’applique dès qu’un produit connecté ou un service connexe est mis à disposition sur le territoire de l’UE et/ou qu’un utilisateur ou destinataire de données sont situés dans les Vingt-sept. Et ce, quel que soit le lieu d’établissement du détenteur de données ou du fournisseur de services de traitement de données.
De la même manière, l’article 2 de l’AI Act prévoit que le règlement s’appliquera dès qu’un système d’IA sera mis sur le marché de l’UE ou qu’un utilisateur de système d’IA est établi ou est localisé sur le territoire des Vingt-sept, ou encore que le contenu généré par l’IA est utilisé au sein de l’UE. Le but est de ne pas favoriser les acteurs non européens au détriment des entreprises locales. Il s’agit donc, comme pour le RGPD, d’assurer une protection efficace des citoyens européens sans entraver la compétitivité des entreprises européennes. Les textes cherchent aussi à ne pas décourager les entreprises européennes à innover, en ayant notamment pour effet d’imposer de manière extraterritoriale, même aux plus grandes entreprises internationales, des obligations. Les Gafam ont mis en avant les risques liés notamment au AI Act, la mise en conformité entraînant des coûts importants.

Transparence et secret des affaires : équilibre
Un enjeu du Data Act et de l’AI Act est de trouver un équilibre entre la transparence dans le traitement des données et la préservation du secret des affaires, afin de ne pas freiner l’innovation :
• Le Data Act : la maîtrise par l’utilisateur de ses données limitée par le secret des affaires. L’article 3 du Data Act prévoit l’obligation pour les entreprises concevant et fabriquant des objets connectés et des services connexes de rendre, par défaut, les données et métadonnées générées par ces objets et/ou services connexes facilement accessibles à l’utilisateur, voire lorsque cela est « pertinent et techniquement possible » directement accessibles à l’utilisateur par une simple demande électronique. A ce sujet, l’article 3.2 du Data Act prévoit qu’un certain nombre d’informations précontractuelles doivent être délivrées par le vendeur, le loueur ou le bailleur d’objets connectés « de manière claire et compréhensible ». Ces informations sont notamment relatives au type, format et volume estimé de données générées par l’objet en question ou encore à la capacité de l’objet de générer des données en continu et en temps réel (3). Aussi, l’article 5 du Data Act prévoit le droit pour l’utilisateur de partager des données avec des tiers.

Les obligations du détenteur de données
Cependant, afin d’assurer la compétitivité des entreprises en Europe, le texte prévoit, que ce soit au sujet du droit d’accès ou du droit de partage des données par l’utilisateur à des tiers, le respect du secret des affaires par lequel seraient protégées certaines données. Le détenteur de la donnée a ainsi l’obligation de recenser les données ou métadonnées protégées en tant que secret des affaires et de mettre en place des « mesures techniques et organisationnelles proportionnées » nécessaires à la préservation de la confidentialité des données partagées. Le texte prévoit notamment la possibilité d’élaboration de clauses de confidentialité entre le détenteur de données et l’utilisateur et/ou le tiers, ou encore l’adoption de « codes de conduite ».
A défaut d’accord ou si l’utilisateur ou le tiers contrevient aux mesures convenues avec le détenteur du secret des affaires, le détenteur de données peut bloquer ou suspendre le partage des données confidentielles. Il devra alors avertir l’utilisateur ou le tiers concerné et le notifier à l’autorité compétente. De surcroît, même si l’utilisateur ou le tiers respecte les mesures convenues avec le détenteur de données, ce dernier peut démontrer « qu’il est très probable qu’il subisse un préjudice économique grave du fait de la divulgation de secrets d’affaires » et ainsi refuser une demande d’accès pour les données en question en avertissant et en expliquant les raisons précises de sa décision et en le notifiant à l’autorité compétente. La décision du détenteur de données est toutefois susceptible de recours par l’utilisateur ou le tiers devant une juridiction d’un Etat membre et peut aussi être l’objet d’une réclamation auprès de l’autorité compétente. Enfin, l’utilisateur ou le tiers ont l’interdiction de se servir des données obtenues pour concurrencer le produit connecté en question.
L’AI Act : la « synthèse suffisamment détaillée » des données d’entraînement au cœur des interrogations. L’AI Act réalisera en substance le même compromis que le Data Act en ce qui concerne les données d’entraînement qui sont utilisées par les IA pour générer du contenu (4). En effet, le texte prévoit que les fournisseurs d’IA à usage général devront prendre des mesures pour respecter le droit d’auteur, en particulier le droit d’opposition des ayants droit, peu importe la juridiction où l’entraînement a lieu. Ces mêmes fournisseurs devront également, afin d’accroître la transparence sur les données d’entrainement, publier une « synthèse suffisamment détaillée » de ces données. Cette synthèse devra être globalement exhaustive dans sa portée plutôt que techniquement détaillée afin de faciliter aux parties ayant des intérêts légitimes, notamment les ayants-droits, l’exercice de leurs droits. Le texte donne simplement de vagues exemples d’informations fournies au titre de la synthèse détaillée, comme l’énumération des principales collections de données ou les ensembles utilisés pour former le modèle. Les fournisseurs de modèles d’IA gratuits et open source seront exemptés de cette obligation sauf s’ils présent un risque systémique, afin d’inciter leur développement dans la mesure où ils contribuent à la recherche à l’innovation sur le marché et peuvent être des sources de croissance importante pour l’économie de l’UE. Le « Bureau de l’IA » – « AI Office » tel que prévu dans la version consolidée de l’AI Act (5) datée du 21 janvier (6) – devrait entrer en vigueur le 21 février 2024 (7). Il fournira des modèles de synthèses à destination des fournisseurs d’IA concernés et veillera au respect de ces dispositions. La Commission européenne a d’ailleurs, dans une déclaration (8) publiée après l’adoption du texte, réaffirmé le rôle primordial du Bureau de l’IA dans la nouvelle réglementation et dans lequel la France a bien l’intention d’être représentée afin de faire entendre sa voix (9).
Cependant, afin de préserver l’innovation d’une règlementation trop encombrante, l’AI Act prévoit que les rédacteurs de cette synthèse suffisamment détaillée devront prendre en considération le besoin de protéger le secret des affaires et les informations confidentielles. Attention toutefois, à la différence du Data Act, cette mention figure dans les considérants et non pas dans le corps du texte du règlement.
Le Data Act a été pensé pour favoriser l’accès par les petites et moyennes entreprises (PME) à des données pertinentes et leur permettre ainsi d’innover et de rivaliser face à de grandes entreprises qui possèdent déjà une puissance économique considérable sur le marché. C’est précisément pour cette raison que le texte a exclu les entreprises désignées en tant que « contrôleur d’accès » au sens de l’article 3 du DMA (10) du bénéfice de la désignation en tant que « tiers »au sens du Data Act et donc de l’accès aux données issues d’objets connectés et services connexes par le biais du droit de partage de l’utilisateur.

Ménager les PME, éviter les monopoles
Concernant l’AI Act, la Commission européenne a lancé le 24 janvier 2024 des mesures visant à soutenir les jeunes pousses et les PME européennes dans le développement de l’IA (11). Cette volonté se retrouve donc logiquement dans le texte de l’AI Act dont les rédacteurs ont souhaité accélérer l’accès au marché pour les PME en éliminant les obstacles. Le texte entend ainsi permettre des moyens simplifiés de conformité pour les entreprises de plus petite taille et éviter un monopole des plus grandes entreprises dotées d’une grande force de frappe, comme OpenAI. @

* Anne-Marie Pecoraro est avocate spécialisée en droit de la
propriété intellectuelle, des médias et des technologies

Données produites par l’Internet des objets et l’informatique en nuage : ce que dit le Data Act

Le législateur européen poursuit ses travaux en vue de créer un marché unique des données. La dernière avancée en date : le règlement sur les données, dit « Data Act », entré en vigueur le 11 janvier 2024. Il sera applicable à compter du 12 septembre 2025. Tour d’horizon de ses principales dispositions.

européennes en font-elles assez en tant que gendarmes des données personnelles ?Les « Cnil » européennes en font-elles assez en tant que gendarmes des données personnelles ?

Edition Multimédi@ revient sur la Journée de la protection des données (Data Protection Day) qui a été célébrée – comme tous les ans depuis 2007 – le 28 janvier. L’organisation Noyb a publié un sondage montrant, en creux, que les « Cnil » européennes ne contrôlent pas assez le respect du RGPD.

La Journée de la protection des données (Data Protection Day) qui été célébrée – comme tous les ans depuis 2007 (1) – le 28 janvier, est tombée cette année un dimanche. D’où le peu d’intérêt qu’elle a cette fois suscité. Pourtant, cette cause est cruciale pour les vies numériques des presque 404 millions d’internautes de l’Union européenne (UE), laquelle compte 445,8 millions d’Européens (2). Les données personnelles de ces citoyens de l’UE sont censées être protégées par les « gendarmes » des données personnelles justement, à savoir les « Cnil » dans chacun des Vingt-sept.

Les « Cnil » font-elles leur boulot ?
Or les « Cnil » de l’UE, réunies au sein du Comité européen de la protection des données (CEPD/EDPB) aux côtés de la Commission européenne qui participe à leurs réunions (sans droit de vote), n’useraient pas suffisamment de leurs pouvoirs de contrôle et d’enquête pour vérifier que les plateformes numériques et les sites web respectent – entre autres obligations de protection de la vie privée de leurs utilisateurs – le règlement général sur la protection des données (RGPD). C’est ce qui ressort, en creux, d’un vaste sondage mené par l’organisation autrichienne Noyb – « centre européen pour les droits numériques » cofondé à Vienne et dirigé par Max Schrems (photo) – auprès de 1.000 professionnels de la protection des données travaillant dans des entreprises européennes.
Dans les résultats de cette étude sans précédent depuis l’entrée en vigueur du RGPD le 25 mai 2018, il y a plus de cinq ans, il ressort que 74,4 % des professionnels interrogés – de nombreux étant eux-mêmes des DPO (Data Protection Officers), à savoir des délégués à la protection des données dans une entreprise – affirment que « si les autorités de protection des données personnelles [les « Cnil » européennes, ndlr] menaient une enquête sur place dans une entreprise moyenne traitant des données d’utilisateurs, elles trouveraient des “violations pertinentes” ». Autrement dit, la plupart des entreprises, au premier rang desquelles les grandes sociétés, ne respectent pas les obligations du RGPD (3) pour protéger la vie privée des personnes dont elles exploitent les données personnelles. Et, en toute impunité puisque les « Cnil » – les Data Protection Authorities (DPA) – en contrôlent très peu. Les sociétés et organisations sont donc en infraction avec ce règlement européen, lequel prévoit trois types sanctions financières en cas de violation des données personnelles :
Pour les violations des obligations incombant au responsable du traitement et au sous-traitant, des obligations incombant à l’organisme de certification, ou des obligations incombant à l’organisme chargé du suivi des codes de conduite : amendes administratives pouvant s’élever jusqu’à 10 millions d’euros ou, dans le cas d’une entreprise, jusqu’à 2 % du chiffre d’affaires annuel mondial total de l’exercice précédent, le montant le plus élevé étant retenu.
Pour les violations aux principes de base d’un traitement, y compris les conditions applicables au consentement, aux droits dont bénéficient les personnes concernées, aux transferts de données à caractère personnel à un destinataire situé dans un pays tiers ou à une organisation internationale, à toutes les obligations découlant du droit des Etats membres, ou au non-respect d’une injonction, d’une limitation temporaire ou définitive du traitement ou de la suspension des flux de données ordonnée par l’autorité de contrôle, ou le fait de ne pas accorder l’accès prévu : amendes administratives pouvant s’élever jusqu’à 20 millions d’euros ou, dans le cas d’une entreprise, jusqu’à 4 % du chiffre d’affaires annuel mondial total de l’exercice précédent, le montant le plus élevé étant retenu. « Le non-respect d’une injonction émise par l’autorité de contrôle [une « Cnil » en Europe, ndlr] fait l’objet d’amendes administratives pouvant s’élever jusqu’à 20 millions d’euros ou, dans le cas d’une entreprise, jusqu’à 4 % du chiffre d’affaires annuel mondial total de l’exercice précédent, le montant le plus élevé étant retenu », prévoit le RDPD (4).

France : seulement 125 agents habilités
Chaque autorité de contrôle des données personnelles est dotée de pouvoirs, sur son territoire, de contrôler l’application du RGPD et de veiller à son respect, ainsi que de pouvoirs d’enquêtes sur l’application de ce même règlement, « y compris sur la base d’informations reçues d’une autre autorité de contrôle ou d’une autre autorité publique » (5). Parmi ses nombreuses attributions en tant que gendarme des données personnelles, la « Cnil » européenne traite aussi « les réclamations introduites par une personne concernée ou par un organisme, une organisation ou une association, […] et informe l’auteur de la réclamation de l’état d’avancement et de l’issue de l’enquête dans un délai raisonnable, notamment si un complément d’enquête ou une coordination avec une autre autorité de contrôle est nécessaire ». Mais les autorités de contrôle des données dans l’UE remplissent-elles bien leur mission de contrôles, d’enquêtes voire de sanctions ? Au vu des constatations de Noyb, le doute s’installe sur leurs capacités à faire respecter la loi, en l’occurrence le RGPD. En France, la Cnil ne dispose que de 125 agents habilités « à procéder à des missions de vérification », d’après sa dernière délibération du 7 décembre 2023 publiée au Journal Officiel (6). Contactée par Edition Multimédi@, la Cnil nous indique qu’elle n’a « pas de commentaires à faire concernant le sondage Noyb ».

Le « soft-law » des DPA jugé inefficace
Le fait que 74,4 % des sondés par Noyb se disent d’accord avec l’affirmation selon laquelle « les autorités de protection des données trouveraient sûrement des violations pertinentes du RGPD » (voir tableau ci-dessous) en disent long sur le peu de contrôles et d’enquêtes qui sont menés sur le terrain. Les « Cnil » sont donc appelées à, en substance, faire vraiment leur travail de vérification en se rendant dans les entreprises. Avec ses 125 agents habilités, la Cnil française semble par exemple presque désarmée – en tant que gendarme des données personnelles – face à l’ampleur de la tâche. Sachant que, rien qu’en France d’après le rapport annuel de la Cnil, présenté par sa présidente Marie-Laure Denis (photo ci-contre) en mai 2023, il y a 89.841 délégués à la protection des données (DPO) susceptibles d’être contrôlés. Cela fait par agent assermenté plus de 700 responsables – de traitement des données personnelles et de la protection de la vie privée – à « vérifier »… Résultat, comme le constate Noyb, « les professionnels évoluent encore dans une culture de non-conformité ou de conformité partielle ». Et le président honoraire de Noyb d’enfoncer le clou : « Il est extrêmement alarmant de constater que 74,4 % des professionnels de la protection des données au sein des entreprises déclarent que les autorités trouveraient en des violations importantes dans une entreprise moyenne. De tels chiffres seraient inimaginables s’il s’agissait de se conformer à la législation fiscale ou à la réglementation en matière de sécurité incendie. La non-conformité ne semble être la norme que lorsqu’il s’agit des données personnelles des utilisateurs » (7). Autre critique à l’égard des « Cnil » et de leur représentation CEPD/EDPB à Bruxelles : les instruments dits de soft-law sont inefficaces, à savoir notamment leurs lignes directrices et recommandations qui n’ont que peu d’influence et sont considérées comme généralistes. D’après l’enquête de Noyb, 70,9 % des personnes interrogées pensent qu’il faudrait des décisions plus claires de la part des gendarmes européens des données personnelles (les vingt-sept DPA) et des tribunaux pour améliorer la conformité. Pour l’écrasante majorité des sondés, il y a « un besoin d’une plus grande implication réellement des DPA pour améliorer la protection de la vie privée des utilisateurs dans la pratique » et il y a encore « beaucoup d’interprétations contradictoires du RGPD ».
Et un avocat néerlandais spécialiste du RGPD de faire remarquer : « Si les Big Tech ne respectent pas le RGPD, pourquoi les petites entreprises se donneraient la peine de se conformer ? ». L’outil d’audit de site web WAT lancé le 29 janvier dernier par le CEPD/EDPB, sous forme de logiciel open source et gratuit (8), devrait permettre aux gendarmes des données et aux éditeurs Internet de vérifier la conformité ou pas de sites web. Reste qu’aujourd’hui le droit à la vie privée et à la protection des données est en grande partie bafoué en Europe, plus de cinq ans après l’entrée en vigueur du RGPD qui devrait en principe faire l’objet d’une révision cette année (9). @

Charles de Laubier