Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet.

Exception de Text and Data Mining
Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés. Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur prochaine du règlement européen sur l’intelligence artificielle – l’AI Act dont le texte final (1) a été signé le 13 juin 2024 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles.

En effet, l’article 53 et l’annexe XI de l’AI Act imposent, entre autres, aux fournisseurs de modèles d’IA à usage général (2) de mettre à disposition des informations sur les données utilisées pour l’entraînement de ces modèles, au moyen d’un document-type qui sera mis à disposition par le bureau de l’IA (AI Office). Ils doivent notamment indiquer comment ces données ont été obtenues et sélectionnées, ainsi que toutes les mesures prises pour détecter les sources de données inadéquates. Pour pouvoir se conformer de manière sereine à ces nouvelles exigences (3), il est indispensable de s’assurer que les données d’entraînement ont été récupérées et collectées dans le respect des droits de propriété intellectuelle et du RGPD, sous peine de risquer des actions en contrefaçon ou des procédures de sanction devant les autorités de contrôle (4). En effet, le contenu d’un site Internet qu’un acteur entend scrapper (« moissonner ») pour constituer une base de données d’entraînement peut à la fois contenir des données à caractère personnel, mais également être protégé au titre du droit d’auteur (5) ou du droit des bases de données (6). Or, par principe, toute reproduction et utilisation d’un contenu protégé par un droit de propriété intellectuelle nécessite d’obtenir l’autorisation du titulaire des droits concernés. Néanmoins, afin de favoriser le développement de l’IA, le code de la propriété intellectuelle (CPI) a introduit, pour le droit d’auteur et le droit des producteurs de bases de données, les exceptions de fouilles de textes et de données (dites de Text and Data Mining) qui permettent de scrapper des données à des fins d’entraînement des modèles, sous réserve de respecter un certain nombre de conditions. Il y a en réalité deux régimes : la fouille de textes et de données à des fins de recherche scientifique (7) et celle à des fins diverses (8).
L’exception de fouille à des fins de recherches scientifique présente l’avantage d’être un droit absolu (le titulaire des droits ne peut pas s’y opposer), sous réserve que l’accès aux données soit réalisé de manière licite (9). Néanmoins, son périmètre est relativement restreint puisque seuls peuvent s’en prévaloir certains acteurs limitativement énumérés (10). La plupart des fournisseurs de systèmes d’IA ne peut donc pas mobiliser cette exception et doit se rabattre sur l’exception générale dite à des fins diverses. Pour pouvoir invoquer le bénéfice de cette exception générale, le fournisseur de système d’IA doit accéder aux données de manière licite et s’assurer que le titulaire des droits de propriété intellectuelle ne s’y est pas opposé.

« Moissonnage » et données personnelles
Les textes précisent que l’opposition du titulaire des droits « n’a pas à être motivée et peut être exprimée par tout moyen », notamment « au moyen de procédés lisibles par machine, y compris des métadonnées, et par le recours à des conditions générales d’utilisation » (11). Pour l’opposition via des procédés techniques, plusieurs outils existent (Robot.txt, AI.txt, TDMRep, …). En pratique, cela signifie que pour pouvoir scrapper les données des sites Internet à des fins d’entraînement des modèles, les fournisseurs de systèmes d’IA ne doivent pas contourner les éventuels dispositifs de protection existants (par exemple un accès restreint par un compte utilisateur) et doivent s’assurer, au moment de l’extraction des données, que les conditions générales d’utilisation (CGU) et/ou mentions légales du site Internet ne contiennent pas de clause interdisant l’extraction des données et que les métadonnées du site Internet n’expriment pas non plus une telle interdiction. L’AI Act confirme ce dernier point (12).
Lorsqu’un titulaire de droits s’est opposé à l’extraction de ses données, le fournisseur de système d’IA n’a d’autre choix que d’obtenir une autorisation expresse (13) au moyen d’un accord de licence ou de partenariat, comme ont récemment pu le faire OpenAI avec Le Monde, Die Welt et El País (14). Une fois ces vérifications opérées, le fournisseur de système d’IA devra suivre des étapes supplémentaires si le contenu qu’il souhaite « moissonner » contient des données à caractère personnel, afin de respecter le RGPD.

Base légale de l’intérêt légitime
Ces derniers mois, la Cnil a publié plusieurs fiches pour guider les fournisseurs de systèmes d’IA (15) au sein desquelles elle clarifie comment appliquer les principes clefs aux spécificités de l’IA. Elle y admet qu’il est possible de fonder les traitements d’entraînement des modèles d’IA sur la base légale de l’intérêt légitime, notamment lorsque les données sont collectées à partir de sources publiques (16), sous réserve de mener une analyse au cas par cas permettant de documenter la légitimité de l’intérêt poursuivi, sa nécessité et le fait qu’il n’y a pas d’atteinte disproportionnée aux intérêts, droits et libertés des personnes. Pour autant, en juin 2024, Noyb a porté plainte – auprès de onze « Cnil » en Europe – contre Meta dont il conteste la faculté de se fonder sur l’intérêt légitime pour récupérer les données de Facebook et Instagram afin d’entraîner ses modèles d’IA. Dans l’attente, Meta a stoppé son projet (17).
La première étape avant de scrapper des données à caractère personnel est de définir la finalité du traitement, à partir de laquelle l’analyse de conformité aux principes de protection des données personnelles pourra être réalisée. A partir de cette finalité (créer une base de données afin d’entraîner des modèles d’IA permettant d’évaluer l’appréciation d’œuvres par le public, développer un LLM capable de répondre à des questions, générer du texte, effectuer des résumés, etc,…), le fournisseur de modèles d’IA devra s’assurer du respect du principe de minimisation, en ne collectant que les données pertinentes et nécessaires pour atteindre son objectif. Concrètement, cela signifie qu’il doit s’interroger en amont sur les catégories de données nécessaires pour l’entraînement du modèle d’IA. En pratique, il devra définir les catégories de données à collecter et mettre en place des filtres permettant d’exclure la collecte de certaines données. Dans sa fiche dédiée au web scraping (18), la Cnil précise que dans l’hypothèse où des données non pertinentes seraient collectées malgré les filtres mis en place, il convient de supprimer ces données, immédiatement après leur collecte ou dès elles ont été identifiées. Elle appelle également à la prudence sur la collecte automatique de données sensibles en invitant les fournisseurs à appliquer des filtres permettant d’écarter la collecte de données sensibles (19) non pertinentes ou à exclure de leurs activités de scraping certains sites comportant par nature ce type de données.
Respecter le RGPD suppose, par ailleurs, d’informer les personnes concernées et de faciliter l’exercice de leurs droits. La Cnil reconnaît (20) qu’en cas de collecte parweb scraping, une information individuelle des personnes pourrait, dans certains cas, être disproportionnée et donc non obligatoire. Elle recommande alors au fournisseur du système d’IA de fournir une information générale (par exemple au sein de sa politique de confidentialité) contenant notamment les catégories de sites sources utilisés avec des liens hypertextes vers ceux-ci, en proposant un modèle dédié. Pour les droits des personnes, elle rappelle qu’un responsable du traitement n’a pas à conserver ou collecter des informations supplémentaires qui ne lui sont pas nécessaires dans le seul but de permettre l’exercice des droits. La Cnil propose néanmoins des exemples de mesures que les fournisseurs de modèles d’IA pourraient mettre en place pour faciliter l’exercice des droits (comme la conservation de métadonnées ou d’informations sur la source des données pour faciliter la recherche d’une personne au sein de la base ou l’indication aux personnes des données à fournir pour les identifier).
La Cnil propose enfin de mettre en place des mesures supplémentaires pour garantir l’équilibre attendu de ces traitements basés sur l’intérêt légitime. Certaines mesures découlant des règles précédemment citées semblent réalisables : exclure par défaut la collecte à partir de certains sites contenant des données intrusives ; prévoir la possibilité de s’opposer au traitement de manière discrétionnaire ; appliquer des procédés d’anonymisation ou de pseudonymisation après la collecte des données. D’autres semblent moins pragmatiques.

AI Office : recommandations très attendues
Certains acteurs pourraient ainsi saisir l’opportunité de remonter leurs questionnements, difficultés pratiques, appréciation des règles dans le cadre de la consultation publique à laquelle sont soumises certaines fiches jusqu’au 15 septembre 2024 (21) ou répondre au questionnaire (22). A l’aune de l’entrée en vigueur de l’AI Act, les fournisseurs de modèles d’IA à usage général attendront donc les précieuses recommandations et modèles du bureau de l’IA, tout récemment créé (23), sur les documents à produire pour les sources de données d’entraînement, afin de leur permettre d’engager les travaux nécessaires à la compilation de ces informations. @

IA génératives, contrefaçons, exceptions au droit d’auteur et opt out : où se situent les limites ?

Adopté par les eurodéputés le 13 mars 2024, l’AI Act – approuvé par les Etats membres en décembre 2023 – va être définitivement voté en plénière par le Parlement européen. Mais des questions demeurent, notamment sur les limites du droit d’auteur face aux intelligences artificielles génératives.

Par Vanessa Bouchara, avocate associée, et Claire Benassar, avocate collaboratrice, Bouchara & Avocats.

Si l’utilisation des intelligences artificielles (1) est désormais largement répandue, ces techniques et technologies capables de simuler l’intelligence humaine restent au cœur de nombreux questionnements – tant éthiques que juridiques. Alors même que le projet de règlement européen visant à encadrer l’usage et la commercialisation des intelligences artificielles au sein de l’Union européenne, dit AI Act (2), a été adopté en première lecture le 13 mars 2024 par le Parlement européen (3), c’est l’intelligence artificielle générative – IAg, AIG ou GenAI – qui est aujourd’hui sujette à controverse.

Droit d’auteur et procès en contrefaçon
A l’origine du débat les concernant, il importe de rappeler que les systèmes d’IAg ont pour particularité de générer du contenu (textes, images, vidéos, musiques, graphiques, etc.) sur la base, d’une part, des informations directement renseignées dans l’outil par son utilisateur, et, d’autre part et surtout, des données absorbées en amont par l’outil pour enrichir et entraîner son système. Les systèmes d’intelligence artificielle générative sont ainsi accusés d’être à l’origine d’actes de contrefaçon, et pour cause : l’ensemble des données entrantes dont ils se nourrissent peuvent potentiellement être protégées par des droits de propriété intellectuelle. Où se situe donc la limite entre l’utilisation licite de ces données et la caractérisation d’un acte de contrefaçon ? Si, par principe, la reproduction de telles données est interdite, le droit européen semble désormais entrouvrir la possibilité d’utiliser celles-ci dans le seul cadre de l’apprentissage de l’IAg.

L’interdiction de reproduction de données protégées par le droit d’auteur. L’auteur d’une œuvre de l’esprit (4) jouit sur cette œuvre, du seul fait de sa création, de l’ensemble des droits conférés aux auteurs par le Code de la propriété intellectuelle (CPI). A ce titre, l’auteur d’une œuvre peut notamment s’opposer à toute reproduction de celle-ci, c’est-à-dire à toute fixation matérielle quelle qu’elle soit de son œuvre par tous procédés qui permettent de la communiquer au public d’une manière indirecte. Si l’IAg utilise en grande partie des données publiques, se pose tout de même la question de l’utilisation de ces données lorsqu’elles constituent de telles œuvres de l’esprit bénéficiant de la protection offerte par le droit d’auteur. La collecte et l’intégration de telles données dans les outils d’intelligence artificielle constituent-ils toutefois de tels actes de reproduction ? Eu égard à la définition très large du droit de reproduction, il semblerait qu’il faille répondre à cette question par la positive. En effet, la définition qui en est donnée par le législateur incite à considérer qu’en principe, tout acte de reproduction d’une œuvre doit faire l’objet d’une autorisation préalable de son auteur.
Aussi, en l’absence d’autorisation de la part de leurs auteurs, l’intégration des données d’apprentissage protégées par le droit d’auteur dans l’outil d’IAg pourrait aisément matérialiser un acte de contrefaçon par reproduction. C’est d’ailleurs à ce titre que plusieurs procédures sont en cours aux Etats-Unis. Plusieurs recours collectifs ont dernièrement été déposés en 2023 contre OpenAI et Microsoft, notamment par un regroupement d’écrivains américains – soutenus par la Authors Guild (5) – qui soutiennent que l’algorithme entraînant le robot ChatGPT manie leurs œuvres en violation de leurs droits d’auteur. Le New York Times a lui aussi porté plainte contre OpenAI et Microsoft (6). Il en est de même pour la banque d’images Getty Images qui accuse l’outil Stable Diffusion, développé par Stability AI, de violer ses droits d’auteur. Les procès se multiplient contre les IAg. Si la législation applicable est toute autre aux Etats-Unis, il nous semble toutefois que le dénouement des litiges en cours puisse potentiellement nous aiguiller sur le possible positionnement des juges français.

Exceptions, citations, extraits, …
Intelligence artificielle générative, fair use et exception de courte citation. Si les défendeurs outre Atlantique excipent généralement du concept de fair use, lequel permet l’utilisation loyale d’une œuvre par un tiers, les exceptions au droit d’auteur en France sont strictement délimitées et encadrées par les dispositions du CPI. Aussi, si les droits conférés aux auteurs d’une œuvre de l’esprit sont particulièrement étendus, le législateur les a de longue date assortis d’une liste exhaustive conséquente d’exceptions venant faire obstacle aux droits d’auteur. Parmi celles-ci, à défaut de fair use, certains entendent ainsi défendre l’IAg sur la base de l’exception de courte citation, permettant à tout tiers d’exploiter de courts extraits de l’œuvre dans la mesure où cette exploitation serait notamment justifiée par le caractère pédagogique, scientifique ou d’information de l’œuvre à laquelle elles sont incorporées. Seulement, encore faut-il que le tiers invoquant cette exception indique clairement le nom de l’auteur et la source. Ce que les outils d’IAg ne font pas, et ne peuvent pas faire eu égard à la masse de données sur laquelle se fonde leur entraînement, et surtout au regard du recoupement de l’ensemble de ces informations, lequel rend presque impossible de sourcer chacun des auteurs dont les œuvres sont utilisées.

Fouille de textes et de données limitée
L’évolution des techniques utilisées rend ainsi indispensable l’évolution du droit actuel et de la jurisprudence qui en découlera.
La limitation du droit d’auteur pour la fouille de textes et de données. Sans même anticiper l’arrivée fulgurante de l’intelligence artificielle au début des années 2020, le législateur européen est venu introduire en 2019 – via la directive « Droit d’auteur dans le marché unique numérique » (7) – une nouvelle exception au droit d’auteur en autorisant la fouille de textes et de données (« text and data mining » ou TDM), laquelle trouve ainsi à s’appliquer lorsque les reproductions d’œuvres réalisées ne remplissent pas toutes les conditions de l’exception pour les actes de reproduction provisoires. Seulement, les défenseurs de l’IAg se sont engouffrés dans cette brèche et ont entendu appliquer cette exception à la collecte et à la reproduction des données disponibles en ligne par les systèmes d’intelligence artificielle, afin de légitimer leur utilisation par ces derniers.
C’est ainsi, dans cette logique, que l’AI Act s’approprie le texte de 2019 et applique l’exception aux fins de fouille de textes et de données aux outils d’IAg. Néanmoins, exception à l’exception, le texte prévoit que tout auteur peut anticiper l’utilisation de ses œuvres par l’IA et s’opposer à cette exploitation en l’indiquant par tout moyen (droit de retrait ou opt out), auquel cas l’exception de « text and data mining » ne trouvera plus à s’appliquer. En pareille hypothèse, les systèmes d’IA seront ainsi à nouveau soumis l’obligation d’obtenir l’autorisation expresse de l’auteur afin de procéder à l’exploration de textes et de données sur ses œuvres de façon licite. Pour autant, le considérant 105 de l’AI Act, précise que les détenteurs de droits peuvent choisir de réserver leurs droits sur leurs œuvres ou autres objets pour empêcher l’exploration de texte et de données, « sauf si cela est fait à des fins de recherche scientifique ». Et dans l’article 2 du même AI Act, le sixième point prévoir que « le présent règlement ne s’applique pas aux systèmes d’IA ou aux modèles d’IA, y compris leur production, spécifiquement développés et mis en service aux seules fins de la recherche et du développement scientifiques ».
Nous nous interrogeons toutefois sur la pertinence de ce système d’« opt out » proposé aux auteurs, dans la mesure où il apparaît difficile – voire impossible – de contrôler son respect par les outils d’IA. En effet, comment un auteur peut-il contrôler que son œuvre n’est pas utilisée pour entraîner une intelligence artificielle ? A charge pour l’AI Office – le Bureau européen de l’IA créé par l’AI Act (8) – de rendre public un « résumé des contenus utilisées pour l’entraînement » de chaque IA à usage général (considérants 107 et 108 de l’AI Act, et articles 53d et 56b).
En dépit de sa volonté protectrice, et alors même qu’il n’est pas entré en vigueur, l’AI Act semble donc d’ores et déjà confronté aux difficultés inhérentes aux avancées techniques issues de l’intelligence artificielle.
Contenu généré par l’IAg et contrefaçon. Cela étant, quand bien même la fouille de données est autorisée en vertu du droit européen, cette exception reste cantonnée au seul entraînement des systèmes d’IA, et ne permet pas pour autant à l’outil de générer en fin de processus des données contrefaisantes. Aussi, dans la mesure où les données générées reproduiraient à tout le moins en partie les caractéristiques originales des données d’entraînement, elles ne pourront pas être exploitées sans l’autorisation préalable des auteurs des données d’entraînement, sauf à caractériser un acte de contrefaçon. En effet, il n’est en pratique jamais exclu que l’on puisse reconnaître tout ou partie des éléments issus des données entrantes, et il apparaît ainsi en théorie probable que des contrefaçons par imitation puissent être caractérisées. Néanmoins, dans quelle mesure l’utilisateur de l’IAg sera-t-il averti que la donnée générée contrefait une œuvre antérieure ?

Quid de la rémunération des contenus ?
S’il existe nécessairement une limite au-delà de laquelle les tribunaux pencheront en faveur de la contrefaçon, il est fort à parier que les utilisateurs des outils d’IAg la franchiront bien avant les développeurs à l’origine de ces outils. Les interrogations restent en tout cas nombreuses, comme en témoignent les deux missions lancées en France le 12 avril dernier par le Conseil supérieur de la propriété littéraire et artistique (CSPLA), d’une part sur la rémunération des contenus culturels utilisés par les IA (9) et d’autre part sur la mise en œuvre de l’AI Act (10). @

Les « Cnil » européennes en font-elles assez en tant que gendarmes des données personnelles ?

Edition Multimédi@ revient sur la Journée de la protection des données (Data Protection Day) qui a été célébrée – comme tous les ans depuis 2007 – le 28 janvier. L’organisation Noyb a publié un sondage montrant, en creux, que les « Cnil » européennes ne contrôlent pas assez le respect du RGPD.

La Journée de la protection des données (Data Protection Day) qui été célébrée – comme tous les ans depuis 2007 (1) – le 28 janvier, est tombée cette année un dimanche. D’où le peu d’intérêt qu’elle a cette fois suscité. Pourtant, cette cause est cruciale pour les vies numériques des presque 404 millions d’internautes de l’Union européenne (UE), laquelle compte 445,8 millions d’Européens (2). Les données personnelles de ces citoyens de l’UE sont censées être protégées par les « gendarmes » des données personnelles justement, à savoir les « Cnil » dans chacun des Vingt-sept.

Les « Cnil » font-elles leur boulot ?
Or les « Cnil » de l’UE, réunies au sein du Comité européen de la protection des données (CEPD/EDPB) aux côtés de la Commission européenne qui participe à leurs réunions (sans droit de vote), n’useraient pas suffisamment de leurs pouvoirs de contrôle et d’enquête pour vérifier que les plateformes numériques et les sites web respectent – entre autres obligations de protection de la vie privée de leurs utilisateurs – le règlement général sur la protection des données (RGPD). C’est ce qui ressort, en creux, d’un vaste sondage mené par l’organisation autrichienne Noyb – « centre européen pour les droits numériques » cofondé à Vienne et dirigé par Max Schrems (photo) – auprès de 1.000 professionnels de la protection des données travaillant dans des entreprises européennes.
Dans les résultats de cette étude sans précédent depuis l’entrée en vigueur du RGPD le 25 mai 2018, il y a plus de cinq ans, il ressort que 74,4 % des professionnels interrogés – de nombreux étant eux-mêmes des DPO (Data Protection Officers), à savoir des délégués à la protection des données dans une entreprise – affirment que « si les autorités de protection des données personnelles [les « Cnil » européennes, ndlr] menaient une enquête sur place dans une entreprise moyenne traitant des données d’utilisateurs, elles trouveraient des “violations pertinentes” ».

Autrement dit, la plupart des entreprises, au premier rang desquelles les grandes sociétés, ne respectent pas les obligations du RGPD (3) pour protéger la vie privée des personnes dont elles exploitent les données personnelles. Et, en toute impunité puisque les « Cnil » – les Data Protection Authorities (DPA) – en contrôlent très peu. Les sociétés et organisations sont donc en infraction avec ce règlement européen, lequel prévoit trois types sanctions financières en cas de violation des données personnelles :
Pour les violations des obligations incombant au responsable du traitement et au sous-traitant, des obligations incombant à l’organisme de certification, ou des obligations incombant à l’organisme chargé du suivi des codes de conduite : amendes administratives pouvant s’élever jusqu’à 10 millions d’euros ou, dans le cas d’une entreprise, jusqu’à 2 % du chiffre d’affaires annuel mondial total de l’exercice précédent, le montant le plus élevé étant retenu.
Pour les violations aux principes de base d’un traitement, y compris les conditions applicables au consentement, aux droits dont bénéficient les personnes concernées, aux transferts de données à caractère personnel à un destinataire situé dans un pays tiers ou à une organisation internationale, à toutes les obligations découlant du droit des Etats membres, ou au non-respect d’une injonction, d’une limitation temporaire ou définitive du traitement ou de la suspension des flux de données ordonnée par l’autorité de contrôle, ou le fait de ne pas accorder l’accès prévu : amendes administratives pouvant s’élever jusqu’à 20 millions d’euros ou, dans le cas d’une entreprise, jusqu’à 4 % du chiffre d’affaires annuel mondial total de l’exercice précédent, le montant le plus élevé étant retenu. « Le non-respect d’une injonction émise par l’autorité de contrôle [une « Cnil » en Europe, ndlr] fait l’objet d’amendes administratives pouvant s’élever jusqu’à 20 millions d’euros ou, dans le cas d’une entreprise, jusqu’à 4 % du chiffre d’affaires annuel mondial total de l’exercice précédent, le montant le plus élevé étant retenu », prévoit le RDPD (4).

France : seulement 125 agents habilités
Chaque autorité de contrôle des données personnelles est dotée de pouvoirs, sur son territoire, de contrôler l’application du RGPD et de veiller à son respect, ainsi que de pouvoirs d’enquêtes sur l’application de ce même règlement, « y compris sur la base d’informations reçues d’une autre autorité de contrôle ou d’une autre autorité publique » (5). Parmi ses nombreuses attributions en tant que gendarme des données personnelles, la « Cnil » européenne traite aussi « les réclamations introduites par une personne concernée ou par un organisme, une organisation ou une association, […] et informe l’auteur de la réclamation de l’état d’avancement et de l’issue de l’enquête dans un délai raisonnable, notamment si un complément d’enquête ou une coordination avec une autre autorité de contrôle est nécessaire ». Mais les autorités de contrôle des données dans l’UE remplissent-elles bien leur mission de contrôles, d’enquêtes voire de sanctions ? Au vu des constatations de Noyb, le doute s’installe sur leurs capacités à faire respecter la loi, en l’occurrence le RGPD. En France, la Cnil ne dispose que de 125 agents habilités « à procéder à des missions de vérification », d’après sa dernière délibération du 7 décembre 2023 publiée au Journal Officiel (6). Contactée par Edition Multimédi@, la Cnil nous indique qu’elle n’a « pas de commentaires à faire concernant le sondage Noyb ».

Le « soft-law » des DPA jugé inefficace
Le fait que 74,4 % des sondés par Noyb se disent d’accord avec l’affirmation selon laquelle « les autorités de protection des données trouveraient sûrement des violations pertinentes du RGPD » (voir tableau ci-dessous) en disent long sur le peu de contrôles et d’enquêtes qui sont menés sur le terrain. Les « Cnil » sont donc appelées à, en substance, faire vraiment leur travail de vérification en se rendant dans les entreprises. Avec ses 125 agents habilités, la Cnil française semble par exemple presque désarmée – en tant que gendarme des données personnelles – face à l’ampleur de la tâche. Sachant que, rien qu’en France d’après le rapport annuel de la Cnil, présenté par sa présidente Marie-Laure Denis (photo ci-contre) en mai 2023, il y a 89.841 délégués à la protection des données (DPO) susceptibles d’être contrôlés. Cela fait par agent assermenté plus de 700 responsables – de traitement des données personnelles et de la protection de la vie privée – à « vérifier »… Résultat, comme le constate Noyb, « les professionnels évoluent encore dans une culture de non-conformité ou de conformité partielle ». Et le président honoraire de Noyb d’enfoncer le clou : « Il est extrêmement alarmant de constater que 74,4 % des professionnels de la protection des données au sein des entreprises déclarent que les autorités trouveraient en des violations importantes dans une entreprise moyenne. De tels chiffres seraient inimaginables s’il s’agissait de se conformer à la législation fiscale ou à la réglementation en matière de sécurité incendie. La non-conformité ne semble être la norme que lorsqu’il s’agit des données personnelles des utilisateurs » (7). Autre critique à l’égard des « Cnil » et de leur représentation CEPD/EDPB à Bruxelles : les instruments dits de soft-law sont inefficaces, à savoir notamment leurs lignes directrices et recommandations qui n’ont que peu d’influence et sont considérées comme généralistes. D’après l’enquête de Noyb, 70,9 % des personnes interrogées pensent qu’il faudrait des décisions plus claires de la part des gendarmes européens des données personnelles (les vingt-sept DPA) et des tribunaux pour améliorer la conformité. Pour l’écrasante majorité des sondés, il y a « un besoin d’une plus grande implication réellement des DPA pour améliorer la protection de la vie privée des utilisateurs dans la pratique » et il y a encore « beaucoup d’interprétations contradictoires du RGPD ».
Et un avocat néerlandais spécialiste du RGPD de faire remarquer : « Si les Big Tech ne respectent pas le RGPD, pourquoi les petites entreprises se donneraient la peine de se conformer ? ». L’outil d’audit de site web WAT lancé le 29 janvier dernier par le CEPD/EDPB, sous forme de logiciel open source et gratuit (8), devrait permettre aux gendarmes des données et aux éditeurs Internet de vérifier la conformité ou pas de sites web. Reste qu’aujourd’hui le droit à la vie privée et à la protection des données est en grande partie bafoué en Europe, plus de cinq ans après l’entrée en vigueur du RGPD qui devrait en principe faire l’objet d’une révision cette année (9). @

Charles de Laubier

 

L’accord sur le transfert des données personnelles vers les Etats-Unis peut-il aboutir ?

Après l’échec du « Safe Harbor » et celui du « Privacy Shield », un nouvel accord se fait attendre entre l’Union européenne et les Etats-Unis sur le transfert des données à caractère personnel. Si le processus est incontestablement en cours, il suscite des réserves qui compromettent son aboutissement. Par Emmanuelle Mignon, avocat associé, et Gaël Trouiller, avocat, August Debouzy (Article paru le 26-06-23 dans EM@ n°302. Le 03-07-23, les Etats-Unis ont déclaré avoir « rempli leurs engagements » pour la protection des données UE-US. Le 10-07-23, la Commission européenne a publié sa décision d’adéquation) En mars 2022, la Commission européenne avait annoncé qu’un accord politique entre sa présidente Ursula von der Leyen et le président des Etats-Unis Joe Biden avait été trouvé (1) : une première traduction juridique de cet accord, intitulé « Data Privacy Framework » (DPF) est alors née, le 7 octobre 2022, du décret présidentiel américain – Executive Order n°14086 – sur « le renforcement des garanties relatives aux activités de renseignement sur les transmissions des Etats-Unis » (2). Après l’annulation du « Privacy Shield » Sur le fondement de cet Executive Order (EO), la Commission européenne a publié, le 13 décembre 2022 (3), un projet de décision d’adéquation du système étasunien de protection des données au droit de l’Union européenne (UE). Celui-ci a fait l’objet d’un avis consultatif du Comité européen de la protection des données (CEPD) du 28 février dernier. Cet avis reconnaît que l’EO apporte de « substantielles améliorations », mais souligne cependant que des écueils subsistent et que des clarifications du régime américain demeurent nécessaires (4). Plus critique, le Parlement européen, dans sa résolution du 11 mai 2023, « conclut que le cadre de protection des données UE–Etats-Unis ne crée [toujours] pas d’équivalence substantielle du niveau de protection [et] invite la Commission à ne pas adopter le constat d’adéquation » (5). Epicentre du DPF, l’EO n°14086 de Joe Biden a pour objet d’instaurer des garanties juridiques afin de prendre en considération le droit de l’UE, en particulier l’arrêt « Schrems II » de 2020. On se souvient que, par cet arrêt, la Cour de justice de l’UE (CJUE) avait jugé que : Le « Privacy Shield » instituait des limitations au droit à la protection des données à caractère personnel – protégé par les articles 7 et 8 de la Charte des droits fondamentaux de l’UE – méconnaissant les exigences de nécessité et de proportionnalité découlant de l’article 52 de cette même Charte. Etait en particulier visée la collecte « en vrac » de données des citoyens européens opérée par les services de renseignement étasuniens en application : de la section 702 du Foreign Intelligence Surveillance Act (FISA) de 2008, qui autorise les services de renseignement américains à adresser à un fournisseur de services de communications électroniques des directives écrites lui imposant de procurer immédiatement au gouvernement toute information ayant pour objet d’obtenir des renseignements (métadonnées et données de contenu) se rapportant à des personnes étrangères susceptibles de menacer la sécurité des EtatsUnis ; de l’Executive Order n°12333 de 1981, qui permet aux services de renseignement américains d’accéder à des données « en transit » vers les Etats-Unis, notamment aux câbles sous-marins posés sur le plancher de l’Atlantique, ainsi que de recueillir et de conserver ces données. Le « Privacy Shield » ne fournissait pas de voie de contestation devant un organe offrant aux citoyens européens, dont les données sont transférées vers les EtatsUnis, des garanties substantiellement équivalentes à celles requises par l’article 47 de la Charte des droits fondamentaux de l’UE consacrant le droit à un recours effectif (6). Pour répondre aux attentes du droit de l’UE, l’EO n°14086 de Biden instaure des principes devant guider les services de renseignement américains lorsqu’ils traitent de données à caractère personnel. A cet égard, les services de renseignement doivent : respecter la vie privée et les libertés civiles indépendamment du lieu de résidence et de la nationalité des personnes dont les données sont collectées (en particulier, cette collecte ne pourra être opérée qu’à condition d’être « nécessaire » et « proportionnée » à la priorité en matière de renseignement alléguée) ; poursuivre des objectifs limitativement définis par l’EO, comme la protection contre le terrorisme ou l’espionnage, et s’écarter, en toute hypothèse, de ceux expressément exclus tels que l’entrave à la liberté d’expression. L’Executive Order de Biden L’EO de Biden prévoit, en outre, un mécanisme de recours à double niveau. En premier lieu, les citoyens européens pourront saisir, par l’intermédiaire d’une autorité publique désignée à cet effet, l’officier de protection des libertés publiques – Civil Liberties Protection Officer (CLPO) – d’une plainte. Ce dernier adoptera alors, s’il estime que les garanties conférées par l’EO n’ont pas été respectées, les mesures correctives appropriées comme la suppression des données illicitement récoltées. En second lieu, un appel de la décision du CLPO pourra être interjeté devant la Cour de révision de la protection des données – Data Protection Review Court (DPRC) – spécialement créée par l’EO. Elle sera composée de membres nommés en dehors du gouvernement américain et ayant une certaine expérience juridique en matière de données à caractère personnel et de sécurité nationale. La décision de cette Cour sera rendue en dernière instance et revêtue d’un caractère contraignant. Des frictions avec le droit de l’UE Les points persistants de friction avec le droit de l’UE qui sont mis en avant par ceux qui sont hostiles à l’adoption du DPF sont les suivants : La collecte « en vrac » de données à caractère personnel, bien qu’encadrée par l’EO de Biden, n’est pas entièrement prohibée et ne nécessite pas une autorisation préalable indépendante. Le recours à cette méthode peut poser une sérieuse difficulté de compatibilité avec le droit de l’UE. En effet, la CJUE voit dans la collecte généralisée et non différenciée des données une incompatibilité avec le principe de proportionnalité (7), à tout le moins lorsqu’une telle collecte ne fait l’objet d’aucune surveillance judiciaire et n’est pas précisément et clairement encadrée (8). Or, cet encadrement pourrait, au cas présent, faire défaut dans la mesure où il est très largement extensible par la seule volonté du Président américain qui est habilité par l’EO à modifier, secrètement, la liste des motifs sur le fondement desquels il peut être recouru à cette technique de surveillance (9). Il n’est pas acquis, faute de définition dans l’EO, que les caractères « nécessaire » et « proportionné » des collectes de données aient la même signification que celle – exigeante – prévalant en droit européen. L’indépendance des organes de recours peut être mise en doute, bien que le système instauré par l’EO comprenne des garanties supérieures à celles antérieurement attachées au médiateur – l’Ombudsperson – du Privacy Shield. En particulier, le CLPO et la DPRC sont organiquement rattachés au pouvoir exécutif américain, n’appartiennent pas organiquement au pouvoir judiciaire et pourraient alors ne pas pouvoir être qualifiés de tribunal au sens de l’article 47 de la Charte des droits fondamentaux de l’UE. L’EO institue toutefois des garanties fonctionnelles d’indépendance à ces deux instances. Ainsi, le directeur du renseignement national ne pourra pas intervenir dans l’examen d’une plainte déposée auprès du CLPO et il lui est interdit de révoquer ce dernier pour toute mesure prise en application de l’EO. Quant à la DPRC, ses membres – qualifiés de juges – ne pourront pas recevoir d’instructions du pouvoir exécutif, ni être limogés à raison des décisions qu’ils prendront. A cet égard, on peut s’interroger mutatis mutandis sur la portée de certaines des garanties apportées par le droit des Etats membres en matière de contrôle des activités de surveillance. L’équilibre n’est pas simple à trouver, mais, s’agissant de la France, le caractère secret de la procédure de contrôle devant le Conseil d’Etat suscite à tout le moins des interrogations. Enfin, d’autres règlementations américaines comme le Cloud Act – régissant la communication de données dans le cadre d’enquêtes judiciaires – n’entrent pas dans le champ de l’EO. Leur application, qui n’est donc pas tempérée par les garanties instituées par ce dernier, pourrait se révéler incompatible avec le niveau de protection des données à caractère personnel en droit de l’UE. Il y a lieu toutefois de souligner que les dispositions du Cloud Act s’inscrivent dans le cadre de l’activité judiciaire des autorités américaines (poursuites et répression des infractions pénales et administratives), qui doit être clairement distinguée des activités de renseignement. Le Cloud Act offre en pratique des garanties qui n’ont rien à envier à celles du droit de l’UE et du droit des Etats membres (10).Ces points de vigilance, non-exhaustifs, devront être scrutés avec attention tout au long de l’examen du processus d’adoption de la décision d’adéquation. Après le CEPD et le Parlement européen, c’est au tour du comité composé des représentants des Etats membres de l’UE d’émettre prochainement un avis sur le projet de la Commission européenne. A supposer qu’il y soit favorable à la majorité qualifiée de ses membres, la décision d’adéquation pourra alors être adoptée. Si la Commission européenne s’est initialement affichée plutôt confiante sur l’avènement du DPF (11), celui-ci pourrait évidemment se retrouver grippé par une contestation de la décision d’adéquation devant le juge européen qui a déjà été annoncée par ses adversaires. En cas de succès de ce recours, l’avenir serait alors bien incertain dans la mesure où les Etats-Unis semblent être arrivés au bout de ce qu’ils sont prêts à concéder pour parvenir à un accord transatlantique sur le transfert des données qui ne se fera pas au prix d’un affaiblissement de la conception qu’ils se font de leur sécurité nationale. Vers une 3e annulation par la CJUE ? Il est peu de dire qu’une éventuelle annulation par la CJUE de la future troisième décision d’adéquation après celles relatives aux « Safe Harbor » (décision « Schrems I » de 2015) et au « Privacy Shield » (décision « Schrems II » de 2020), cristalliserait, de part et d’autre de l’Atlantique, des positions politiques et juridiques certainement irréconciliables. Surtout, cela prolongerait la situation d’incertitude juridique dans laquelle sont plongés les acteurs économiques qui peuvent se voir infliger de lourdes sanctions en cas de transferts transatlantiques irréguliers de données, à l’image de la société Meta condamnée, le 12 mai 2023, à une amende record de 1,2 milliard d’euros par le régulateur irlandais. @

Protection des données en Europe : pour le CEPD, le groupe Meta ne peut imposer sa loi

Facebook, Instagram et WhatsApp (réseaux sociaux du groupe Meta) ont été épinglés par la « Cnil » irlandaise, la DPC, pour ne pas avoir respecté le règlement européen sur la protection des données (RGPD). Mais faute de consensus avec ses homologues des Vingt-sept, le CEPD a eu le dernier mot. Par Jade Griffaton et Emma Hanoun, avocates, DJS Avocats Après cinq ans de procédure, deux sanctions ont été annoncées respectivement les 4 et 19 janvier 2023 pour un total de 395,5 millions d’euros pour le non-respect des mesure imposées par le règlement européen sur la protection des données personnelles (RGPD). Il s’agit de trois amendes infligées à Meta en Irlande par la DPC, la commission de protection des données, à savoir la « Cnil » irlandaise (1). Au coeur du débat : la publicité ciblée pour les utilisateurs des réseaux sociaux du groupe : Facebook (210 millions d’euros d’amende), Instagram (180 millions) et WhatsApp (5,5 millions). Des enquêtes avaient été entreprises après des plaintes de l’organisation autrichienne Noyb (2) pour la protection de la vie privée, fondée par Max Schrems. Un contexte procédural complexe La société Meta Ireland est au coeur des discussions depuis plusieurs années. Dès 2021, Facebook fait l’objet d’une fuite de données personnelles de plusieurs millions de ses utilisateurs menant à l’ouverture d’une enquête par l’autorité irlandaise de protection des données. A la suite de l’enquête, Meta a été condamnée le 25 novembre 2022 à une amende de 265 millions d’euros pour avoir violé ses obligations de sécurisation des données (3). En mars 2022, l’autorité irlandaise avait déjà infligé une amende de 17 millions d’euros à Meta (4), qui n’avait pas pu démontrer la mise en place « de mesures techniques et organisationnelles appropriées […] pour protéger les données des utilisateurs » de l’Union européenne (UE). En parallèle, en France, la Cnil a condamné en janvier 2022 l’entreprise Meta à une amende de 60 millions d’euros en raison de l’impossibilité pour les utilisateurs de refuser simplement les cookies (5). En plus de cette amende, la Cnil avait ordonné une injonction sous astreinte de mettre à disposition des internautes français, dans un délai de 3 mois à compter de la notification de la décision, un moyen permettant de refuser les cookies aussi simplement que celui pour les accepter afin de respecter le consentement de chaque utilisateur. Et par deux décisions – respectivement en date du 31 décembre 2022 concernant Facebook et Instagram pour 390 millions d’amendes (6) et du 12 janvier 2023 concernant WhatsApp pour 5,5 millions d’amende (7) –, l’autorité irlandaise a infligé à Meta ces trois amendes totalisant près de 400 millions d’euros pour manquement à plusieurs principes imposés par le RGPD (8) dont le principe de transparence et le principe de licéité des traitements de données à caractère personnel. Ces dernières décisions font suite à de nombreux débats entre les différentes autorités de contrôle européennes que sont les différentes « Cnil » dans les Vingt-sept. En effet, dans le cadre de la procédure de consultation des autorités de contrôle concernées par l’autorité de contrôle « chef de file » mise en place par l’article 60 du RGPD, en l’occurrence la DPC dans ces procédures « Meta », les projets de décisions préparés en 2021 par l’autorité irlandaise ont été soumis aux régulateurs homologues de l’UE qui ont soulevé un certain nombre d’objections. Face à l’absence de consensus, l’autorité irlandaise a alors saisi le Comité européen de la protection des données (CEPD) – ou, en anglais, EDPB (9) – pour consultation sur les points litigieux, en vertu de l’article 65 du RGPD. Ce dernier a alors rendu trois décisions contraignantes le 5 décembre 2022 relatives aux activités de traitement de données à caractère personnel par Facebook, Instagram et WhatsApp (10). L’autorité irlandaise a alors intégré ces conclusions dans ses trois décisions – celles datées du 31 décembre 2022 à l’encontre de Facebook (210 millions euros d’amende) et d’Instagram (180 millions euros), ainsi que dans celle du 12 janvier 2023 à l’encontre de WhatsApp (5,5 millions d’euros d’amende). Dans le cadre de ses projets de décisions d’octobre 2021, l’autorité irlandaise relevait, de la part des sociétés Facebook, Instagram et WhatsApp, un manquement à leur obligation de transparence édictée par le RGPD (11). En effet, l’autorité irlandaise considère que les utilisateurs des services Meta ne disposent pas d’une clarté suffisante quant aux opérations de traitement effectuées sur les données à caractère personnel, à quelle(s) finalité(s) et quelle(s) base(s) légale(s) parmi celles identifiées à l’article 6 du RGPD. L’absence de consensus européen Les décisions contraignantes rendues par le CEPD le 5 décembre 2022 confirme cette position en ce qui concerne la violation par Facebook, Instagram et WhatsApp de leur obligation de transparence, sous réserve de l’insertion d’une violation supplémentaire, celle du principe de loyauté édicté par le RGPD (12). Alors que la « Cnil » irlandaise considère, dans ses projets de décisions soumis au CEPD, que le recours de Meta Ireland au contrat constituait une base juridique pour certains traitements des données personnelles, ses homologues européens ont soulevé des objections sur ce point. En cause : le rejet par la DPC de la notion de « consentement forcé », s’appuyant sur le contrat entre les utilisateurs et Meta pour légitimer les traitements concernés. Dans les cas Facebook et Instagram, la question était de savoir si la diffusion de publicité personnalisée ou comportementale constituait, ou non, un des services personnalisés inclus dans les services plus largement fournis par Facebook et Instagram au titre du contrat conclu avec ses utilisateurs. Impact important sur les plateformes En effet, dans l’affirmative, ce service pourrait être considéré comme licite au sens de l’article 6 du RGPD, sans nécessité de solliciter le consentement des personnes concernées – systématiquement requis pour les traitements ayant pour finalité la publicité – en se fondant sur la base juridique de « l’exécution d’un contrat auquel la personne concernée est partie ». Selon l’autorité irlandaise, ce service personnalisé fait partie intégrante du contrat conclu entre le fournisseur de services et ses utilisateurs, et a été accepté par ces derniers au moment où ils acceptent les conditions d’utilisation des services. Ainsi, le consentement de l’utilisateur au traitement serait implicitement déduit de l’acceptation d’utiliser le service Meta. Cette réalité est au coeur du modèle économique de la firme de Mark Zuckerberg, dont la rentabilité se fonde sur les revenus publicitaires nécessitant la collecte massive et la réutilisation gratuite des données personnelles de ses utilisateurs à des fins de publicité comportementale. Andrea Jelinek, présidente du CEPD, a d’ailleurs déclaré que les décisions du comité pouvaient « avoir un impact important sur d’autres plateformes qui ont des publicités comportementales au centre de leur modèle d’affaires » (13). Dans le cas WhatsApp, l’enjeu consistait à déterminer si le fait de subordonner l’accès des services WhatsApp à l’acceptation par les utilisateurs des conditions générales mises à jour (les services ne seraient alors pas accessibles si les utilisateurs refusaient de le faire), revenait ou non à « forcer » les utilisateurs à consentir au traitement de leurs données personnelles à des fins d’amélioration et de sécurité du service. Selon le point de vue de la « Cnil » irlandaise, le service fourni par WhatsApp comprend l’amélioration du service et la sécurité, nécessaire à l’exécution du contrat conclu avec les utilisateurs, de sorte que de telles opérations de traitement étaient licites au regard de l’article 6 du RGPD. Les autres « Cnil » européennes concernées par ces traitements ont soulevé – tant pour les cas Facebook et Instagram que pour le cas WhatsApp – des objections et ont estimé que les finalités de publicité personnalisée et d’amélioration du service et de sécurité ne sont pas considérées comme nécessaires pour exécuter les éléments essentiels du contrat conclu avec les utilisateurs. Face à l’absence de consensus sur ces points, le CEPD a par conséquent été consulté par l’autorité irlandaise, dans le cadre de la procédure issue de l’article 65 du RGPD, afin qu’il tranche sur les questions litigieuses. Dans ses décisions rendues le 5 décembre 2022, le CEPD adopte, sur le fondement de l’article 6 du RGPD, la position selon laquelle Meta Ireland ne peut par principe invoquer le contrat comme constituant une base juridique pour traiter les données à caractère personnel à des fins de publicité comportementale (cas Facebook et Instagram) et d’amélioration et de sécurité. Le CEPD se distingue alors des autorités européennes qui soulevaient qu’un tel traitement ne satisfait pas à la condition de nécessité (en d’autres termes, la publicité personnalisée n’est pas nécessaire à l’exécution d’un contrat avec les utilisateurs de Facebook et Instagram), et rend des décisions de principe par application stricto sensu du RGPD. Reflet du pouvoir contraignant du CEPD, l’autorité irlandaise a donc intégré cette solution dans les deux décisions rendues le 31 décembre 2022 à l’encontre de Facebook et Instagram. Il est exigé une mise en conformité avec le RGPD dans un délai de trois mois à compter de la décision – autrement dit d’ici au 31 mars prochain. De même, le 12 janvier 2023, l’autorité irlandaise a accueilli cette solution dans sa décision à l’encontre de WhatsApp, en lui ordonnant de se mettre en conformité dans un délai de six mois – soit d’ici le 12 juillet prochain. A l’heure où il est indéniable que la donnée est le nouvel « or noir » du XXIe siècle, les entreprises doivent adopter des méthodes et techniques, et ce dès la conception de leur modèle économique, afin de protéger convenablement les données personnelles, comme l’exige le RGPD. Il apparaît désormais vital pour les entreprises d’anticiper les implications de leur conformité dès la conception de leurs projets impliquant des traitements de données personnelles (« Privacy by Design »). Les internautes reprennent la main On constate aujourd’hui que les internautes, surtout ceux résidant dans l’UE, cherchent, dans le cadre d’une approche « Privacy First », à utiliser des services respectueux de leur vie privée et prennent en compte la question de la protection des données personnelles les concernant comme condition à l’utilisation de tels services. Les entreprises traitant massivement les données personnelles, et notamment les GAFAM, se trouvent alors confrontées à cette problématique qui tend à modifier considérablement leur modèle économique. Il est aujourd’hui indispensable de se demander de quelle manière et à quel moment il est opportun d’appréhender la question de la protection de la donnée. @