16 milliards d’identifiants volés : les infostealers défient le RGPD en ciblant les utilisateurs finaux

Une fuite de données d’ampleur inédite – orchestrée par des infostealers, nouvelle génération de voleurs de données – révèle les failles béantes de nos écosystèmes numériques et interroge l’efficacité du cadre juridique européen face aux nouvelles formes de cybercriminalité. Le RGPD doit évoluer.

Par Emma Hanoun, avocate, cabinet Odoné

L’exposition de 16 milliards d’identifiants de connexion, révélée par l’équipe de recherche de Cybernews en juin 2025, constitue l’une des plus importantes fuites de données personnelles jamais documentées (1). Cette mégafuite, fruit de l’activité proliférante des logiciels malveillants de type infostealer (voleur d’information), questionne l’efficacité du cadre réglementaire européen en matière de protection des données personnelles.

Les fuites à grande échelles se succèdent
Face à la sophistication croissante des cyberattaques et à l’évolution du marché clandestin des données, cette affaire interroge la capacité du règlement général sur la protection des données (RGPD) à garantir une protection effective des citoyens européens, et impose une réflexion approfondie sur la responsabilisation des acteurs du numérique. La fuite révélée par le chercheur en cybersécurité Bob Diachenko (2), et publiée par Cybernews, concerne 16 milliards d’identifiants issus de trente bases de données piratées différentes, rassemblées sur un serveur accessible publiquement. Outre des plateformes majeures comme Apple, Google ou Facebook, les données exposées concernent un large éventail de services – réseaux sociaux, messageries (Telegram), outils de développement (GitHub), environnements cloud, plateformes gouvernementales et outils professionnels – et illustrent la vulnérabilité généralisée de l’écosystème numérique. Cette exposition de données constitue l’une des plus massives jamais documentées et s’inscrit dans une série de fuites à grande échelle, à l’instar de la MOAB (3) de janvier 2024 (un regroupement de plus de 26 milliards d’enregistrements issus de milliers de fuites antérieures, dont ont été victimes Tencent, LinkedIn, Adobe ou encore Weibo), de RockYou2024 (10 milliards de mots de passe, succédant à RockYou2021 et ses 8,4 milliards de mots de passe), ou encore de la fuite chinoise de mars 2024 touchant WeChat et Alipay, appartenant respectivement aux chinois Tencent et Alibaba.
Les infostealers constituent une catégorie spécifique de logiciels malveillants conçus pour (suite) l’exfiltration silencieuse de données, en infectant directement les terminaux des utilisateurs. Une fois installés (généralement via un faux document, une application piégée ou un logiciel piraté), ils aspirent tout ce qui est stocké localement : URL de connexion, identifiants, mots de passe sauvegardés, données de formulaires auto-complétés, cookies de session, tokens d’authentification, données bancaires ou portefeuilles de cryptomonnaie, etc. Contrairement aux ransomwares (en français, rançongiciels) qui paralysent les systèmes, le mode opératoire de ces attaquants repose sur l’ingénierie sociale et l’exploitation de vulnérabilités humaines : diffusion via des logiciels piratés, documents PDF infectés, modifications de jeux vidéo ou applications factices.
La présence de cookies de session et de tokens d’authentification permet aux pirates de contourner les protections habituelles telles que la double authentification. Par exemple, grâce à ces métadonnées volées, un pirate peut se connecter à un compte bancaire, à une messagerie (Gmail, Outlook, …), ou à une plateforme de paiement (de type PayPal) sans avoir à saisir le mot de passe ni à franchir une authentification à deux facteurs. Il se fait passer pour l’utilisateur légitime, car il dispose des « clés » de session actives. Au surplus, la fraîcheur des données qui, contrairement aux compilations historiques recyclant d’anciennes fuites, proviennent d’activités récentes, confère une valeur exploitable immédiate aux cybercriminels. La démocratisation de ces outils sur les forums du dark web, avec l’émergence de plateformes de « Malware-as-a-Service » (MaaS) et de solutions clés en main comme RedLine, Raccoon ou Vidar, a considérablement abaissé les barrières techniques d’entrée pour les cybercriminels, permettant à des acteurs moins techniques de mener des campagnes sophistiquées. Cette accessibilité explique la prolifération exponentielle des attaques et la multiplication des datasets, ou jeux de données, exposés. Cette industrialisation du cybercrime pose des défis inédits aux autorités de régulation et aux forces de l’ordre. La fuite de 16 milliards d’identifiants cristallise plusieurs enjeux juridiques majeurs.

Responsabilité : le défi de la territorialité
D’abord, la question de la territorialité du RGPD face à des attaques globales menées depuis des juridictions échappant au contrôle européen. En effet, si le RGPD établit son champ d’application territorial (4), son effectivité reste conditionnée à la coopération internationale et aux mécanismes d’entraide judiciaire. Ensuite, la problématique de l’attribution de responsabilité lorsque les données sont exfiltrées depuis le terminal personnel de l’utilisateur infecté et non d’une plateforme attaquée. De plus, la chaîne de responsabilité devient complexe à établir, particulièrement lorsque les données sont agrégées par des tiers non identifiés avant leur exposition publique. L’ampleur de cette violation interroge donc l’adéquation des mécanismes de notification prévus par le RGPD (5), conçus pour des incidents plus circonscrits.

Nouvelles attaques et limites du RGPD
L’article 32 du règlement européen impose aux responsables de traitement et aux sous-traitants la mise en œuvre de « mesures techniques et organisationnelles appropriées afin de garantir un niveau de sécurité adapté au risque ». Cette obligation générale se décline en plusieurs exigences spécifiques : pseudonymisation et chiffrement des données, capacité de garantir la confidentialité, l’intégrité, la disponibilité et la résilience constantes des systèmes, capacité de rétablir la disponibilité et l’accès aux données en temps utile en cas d’incident, et procédure de test et d’évaluation régulières de l’efficacité des mesures. Face à la sophistication des infostealers, ces obligations révèlent leurs limites structurelles. Par exemple, le chiffrement des données, bien qu’obligatoire, ne protège pas contre l’exfiltration d’identifiants stockés en local sur les postes utilisateurs. Dans le même sens, la résilience des systèmes devient illusoire lorsque l’attaque cible directement les terminaux des utilisateurs légitimes, en amont de tout système de protection centralisé. Cette inadéquation soulève la question de l’interprétation extensive de l’article « Sécurité du traitement » (6) : les autorités de contrôle pourraient-elles exiger des responsables de traitement qu’ils déploient des mesures de protection sur les terminaux de leurs utilisateurs ?
Le principe de d’accountability consacré par le RGPD (7) impose aux responsables de traitement de démontrer leur conformité aux principes de protection des données. Cette obligation positive implique une démarche proactive de sécurisation. Dans le contexte des infostealers, cette responsabilisation interroge l’étendue des obligations des responsables de traitement : doivent-ils anticiper et prévenir les comportements à risque de leurs utilisateurs en déployant des outils de détection sur les terminaux ? L’obligation de sécurité s’étend-elle à la sensibilisation et à la formation des personnes concernées ? La jurisprudence européenne tend vers une interprétation extensive de ces obligations. L’arrêt « Fashion ID » (8), rendu en juillet 2019 par la Cour de justice de l’Union européenne (CJUE), a établi que la responsabilité peut s’étendre au-delà du contrôle direct des données, ouvrant la voie à une responsabilisation accrue des acteurs numériques face aux risques indirects. L’analyse de cette méga-fuite révèle donc un décalage croissant entre la sophistication des vecteurs d’attaque et l’efficacité des obligations réglementaires. Les infostealers exploitent principalement les vulnérabilités humaines et les faiblesses des terminaux utilisateurs, domaines où l’action des responsables de traitement reste limitée. Le RGPD, conçu dans une logique de protection des données au niveau des serveurs et des systèmes d’information centralisés, peine à appréhender les attaques ciblant directement les utilisateurs finaux. Cette limitation structurelle nécessite une évolution du cadre réglementaire vers une approche plus holistique de la cybersécurité, intégrant la sécurité des terminaux et la sensibilisation des utilisateurs.
L’adoption généralisée de technologies d’authentification avancées devient un impératif face à l’inefficacité démontrée des mots de passe traditionnels. Les passkeys (clés d’accès) émergent comme une solution technologique robuste – adoptés notamment par Apple, Google et Microsoft. Cette technologie est basée sur les standards FIDO2 (Fast Identity Online 2), portés par la FIDO Alliance, et WebAuthn (Web Authentication), standardisé par le W3C (9), pour la génération de paires de clés cryptographiques : une clé privée conservée sur le terminal de l’utilisateur et une clé publique stockée par le service. L’authentification s’effectue par signature cryptographique, sans transmission d’informations sensibles, éliminant les vulnérabilités inhérentes aux mots de passe classiques. En effet, cette architecture rend impossible la réutilisation des identifiants entre services et immunise contre les attaques de phishing (hameçonnage).
Aussi, l’authentification à deux facteurs (2FA) ou multi-facteurs (MFA) – bien qu’imparfaite en présence de cookies de session et de tokens d’authentification dans les données volées, constitue une mesure de sécurité essentielle face aux menaces contemporaines, et sa généralisation est également une réponse technologique prometteuse. L’évolution vers des méthodes d’authentification continue, analysant en permanence le comportement de l’utilisateur (biométrie comportementale, analyse des patterns de navigation), pourrait offrir une protection plus robuste contre ces attaques sophistiquées. L’imposition de standards minimaux d’authentification pour certains services sensibles, sur le modèle de la directive européenne sur les services de paiement de novembre 2015, dite DSP2 (10), constituerait une réponse proportionnée aux risques identifiés.

Renforcer les standards de sécurité
La fuite de 16 milliards d’identifiants révèle les limites du cadre réglementaire actuel face à l’évolution des cyberattaques qui s’en prennent directement aux terminaux des utilisateurs, contrairement à des vols non moins massifs de données personnelles visant un système central – comme ce fut le cas pour 19,2 millions d’abonnés de Free (Iliad) en octobre 2024, dont 5,1 millions de coordonnées bancaires (11). L’enquête et l’instruction suivent leur cours. Si le RGPD a considérablement renforcé la protection des données personnelles, son efficacité reste conditionnée à l’adaptation des pratiques technologiques et organisationnelles aux nouveaux types d’attaques de plus en plus sophistiqués. @

Entraînement des IA avec les données personnelles de Facebook et d’Instagram : validation européenne ?

Une décision rendue le 23 mai 2025 par un tribunal de Cologne (OLG Köln), couplée aux échanges préalables avec la « Cnil » irlandaise (DPC) et à la mise en place des mesures proposées par cette dernière, entérine la possibilité pour Meta de lancer son projet d’entraînement des modèles d’IA.

Par Sandra Tubert, avocate associée, et Miguel Piveteau, élève avocat, Algo Avocats

Le groupe Meta Platforms utilise depuis le 27 mai 2025 les données partagées publiquement par les utilisateurs majeurs et les comptes institutionnels sur ses services Facebook et Instagram (1) : publications, photos, vidéos ou encore commentaires (exceptés les messages échangés entre utilisateurs et contenus privés), mais aussi les interactions des utilisateurs avec ses systèmes d’intelligence artificielle (IA) pour entraîner ses grands modèles de langage (LLM) comme Llama.

Décision d’un tribunal de Cologne
A la différence de X (ex-Twitter) (2), Meta a engagé un dialogue constructif avec l’autorité irlandaise de protection des données (DPC). En effet, avant que le grand public ne découvre ce nouveau projet fin mai 2024, Meta avait informé la DPC, au mois de mars 2024, de son souhait d’utiliser les contenus publics de ses utilisateurs européens de Facebook et d’Instagram pour l’entraînement de ses modèles d’IA (3). Meta avait finalement suspendu le projet, le 14 juin 2024 (4), après le dépôt de plusieurs plaintes par l’organisation autrichienne Nyob auprès de onze autorités de contrôle européennes (5) et d’échanges avec la DPC (6), laquelle avait émis des réserves concernant notamment (suite) la base légale et la transparence d’un tel traitement. Le 4 septembre 2024, la DPC avait alors demandé au Comité européen sur la protection des données (EDPB) de rendre un avis sur l’utilisation de données personnelles pour le développement et le déploiement de modèles d’IA (7). Tenant compte de cet avis du 17 décembre (8), Meta a réévalué certaines modalités de son projet (notamment le renforcement des mesures de filtrage pour réduire le risque que des données personnelles soient mémorisées par les modèles d’IA lors de la phase d’entraînement) et a fourni à la DPC une documentation actualisée dans l’optique de débuter l’entraînement de ses modèles d’IA le 27 mai 2025.
Après avoir examiné les propositions de Meta et recueilli les commentaires des autres autorités de contrôle européennes, la DPC a formulé un certain nombre de recommandations qui ont été appliquées par Meta, parmi lesquelles la simplification des formulaires d’opposition au traitement et leur accessibilité pendant plus d’un an, la fourniture d’une information claire sur les moyens permettant aux utilisateurs de contrôler les données utilisées (paramétrage des contenus en mode privé), et un délai plus long entre ces informations et le lancement du projet pour leur permettre réellement de s’y opposer (9). L’annonce de ce projet a suscité une levée de boucliers par plusieurs associations, telles que UFC-Que Choisir (10) en France ou Noyb en Autriche. Cette dernière a notamment adressé à l’entreprise une mise en demeure (11), se réservant la possibilité d’intenter une action de groupe au civil. En parallèle, une association de consommateurs allemande (VZNRW) a saisi en référé le tribunal régional supérieur de Cologne – Oberlandesgericht Köln (OLG Köln) – afin qu’il soit interdit à Meta de traiter les données personnelles partagées publiquement par les utilisateurs sur les services Facebook et Instagram afin de développer et améliorer ses IA. Dans une décision (12) rendue le 23 mai 2025, le tribunal rejette la demande de l’association (après un examen qu’il qualifie de sommaire de l’affaire, mais qui est pourtant très étayé), et ne remet pas en cause la légalité du projet de Meta. En effet, en s’appuyant sur une argumentation documentée, conforme à l’avis de l’EDPB et enrichie de l’avis circonstancié des autorités de contrôle des Länder du Bade-Wurtemberg et d’Hambourg, il a écarté, un à un, les griefs soulevés tenant à : la violation du Digital Markets Act (DMA) ; l’impossibilité pour Meta de fonder le traitement sur l’intérêt légitime ; et l’absence d’exception autorisant le traitement de données sensibles. L’OLG Köln a d’abord estimé que la constitution d’une base de données d’entraînement au moyen des données publiques issues des services Facebook et Instagram ne violait pas le DMA (13) – Meta étant désigné comme contrôleur d’accès par la Commission européenne pour ces services essentiels.

Gatekeeper : pas de violation du DMA
Le DMA interdit à tout contrôleur d’accès de combiner, sans consentement préalable de l’utilisateur, les données personnelles provenant d’un service essentiel, qu’il propose aux utilisateurs, avec celles provenant d’un autre service. Selon le tribunal, le fait que Meta introduise des données partiellement désidentifiées et fragmentées provenant de deux services de plateforme dans un ensemble non structuré de données d’entraînement ne constitue pas une combinaison de données, au sens du DMA, en l’absence de lien et mise en relation des données personnelles d’un utilisateur provenant d’un service à celles du même utilisateur provenant d’un autre service. L’OLG Köln valide ensuite le recours à l’intérêt légitime comme base légale de traitement, en réalisant une analyse complète, s’appuyant sur les différents critères exigés par l’EDPB. Le tribunal y reconnaît ainsi que l’intérêt poursuivi, à savoir proposer une IA générative optimisée en fonction des habitudes régionales, quoique commercial, est légitime, puis que le traitement envisagé par Meta s’avère nécessaire pour atteindre cet intérêt en l’absence d’un moyen moins intrusif.

Rapport de Meta pour octobre 2025
Pour démontrer cette nécessité, le tribunal de Cologne mobilise l’AI Act (14) qui reconnaît expressément que le développement et l’entraînement des modèles d’IA génératifs requièrent un accès à de grandes quantités de données (15). S’agissant des moyens moins intrusifs proposés notamment par l’association – à savoir le fait d’utiliser uniquement des données anonymisées ou synthétiques (données qui ne sont pas issues d’une observation réelle, mais qui sont créées artificiellement via des simulations), ou de restreindre l’entraînement aux seules données d’interaction avec les systèmes d’IA –, ils ne permettraient pas, selon l’OLG Köln, d’obtenir des résultats comparables.
Enfin, la mise en balance de l’intérêt légitime poursuivi par Meta avec les intérêts et droits des personnes concernées est jugée adéquate. Le tribunal allemand a identifié les conséquences négatives du traitement, notamment les atteintes aux droits des personnes de décider et contrôler l’usage de leurs données et au droit à l’effacement. Ces conséquences négatives sont toutefois tempérées en raison, d’une part, du caractère public des données traitées limitant les risques liés à une divulgation (puisque ces données sont déjà accessibles librement), et, d’autre part, des mesures de mitigation mises en place par Meta. Sont soulignées les mesures visant à réduire le caractère identifiant des données (incluant la tokenisation) et à les rassembler sous une forme non structurée. Sont également mises au crédit de Meta les possibilités offertes aux utilisateurs pour empêcher l’inclusion de leurs données dans la base d’entraînement : le retrait du statut « public » de leurs publications ou de leur compte ainsi que l’opposition au traitement spécifique des données pour entraîner les modèles d’IA par l’intermédiaire de deux formulaires disponibles en ligne. L’OLG Köln a estimé que l’opposition pouvait ainsi être exercée sans difficulté et de manière éclairée par l’utilisateur dans un délai suffisant (six semaines avant la mise en œuvre effective du traitement). La décision laisse toutefois en suspens la question du caractère effectif de cette possibilité d’opposition pour les tiers non-utilisateurs cités dans les publications ou commentaires. Concernant les attentes raisonnables des personnes concernées, le traitement des données publiées à partir du 26 juin 2024 est jugé prévisible pour les utilisateurs qui ont été informés de ce traitement par l’annonce du 10 juin 2024. S’agissant des données publiées antérieurement, leur traitement n’est, en revanche, pas jugé prévisible car sa finalité n’est pas d’améliorer les services existants de Meta mais de développer des IA utilisables de manière autonome et accessibles à tous. Cette absence de prévisibilité n’est toutefois pas vue comme une difficulté pour la juridiction qui justifie l’absence d’interdiction de traiter ces données au motif que les utilisateurs disposent d’un instrument d’opposition efficace. Enfin, le traitement des données sensibles des utilisateurs est autorisé car il porte sur des données manifestement rendues publiques par l’utilisateur, l’une des exceptions prévues à l’article 9 du RGPD. S’agissant des données sensibles de tiers partagées par les utilisateurs via des publications, le tribunal de Cologne reconnaît que l’exception précédente ne peut pas être mobilisée, mais estime – en s’appuyant notamment sur une jurisprudence de la Cour de Justice de l’UE de 2019 (qui n’aborde pourtant pas cette problématique précise (16)) et sur le fait qu’une application littérale de l’article 9 du RGPD ne permettrait pas d’atteindre les objectifs de l’AI Act – que Meta peut traiter ces données de manière incidente et résiduelle jusqu’à ce que l’interdiction de le faire soit sollicitée par le tiers concerné. Cette décision de l’OLG Köln, couplée aux échanges avec la DPC et à la mise en place des mesures proposées par cette dernière – enrichies de l’avis des autres autorités de l’UE –, entérinent donc la possibilité pour Meta de lancer son projet d’entraînement des modèles d’IA. Mais l’entreprise ne bénéficie pas d’un blanc-seing pour autant.
La DPC suit de près le déploiement du projet et attend un rapport complet de Meta pour le mois d’octobre 2025 contenant, entre autres, des développements sur l’efficacité et l’adéquation des mesures. En parallèle, les autorités de l’UE collaborent (17) pour évaluer plus largement la conformité des traitements envisagés par Meta, notamment en lien avec la phase de déploiement des systèmes d’IA qui pose d’autres questions au regard du RGPD. Meta n’est donc pas totalement à l’abri de l’engagement d’une procédure de sanction par la DPC si des manquements sont constatés. Enfin, bien que la Cnil ne se soit pas officiellement positionnée sur la licéité des pratiques de Meta, la récente mise à jour de ses fiches sur la mobilisation de l’intérêt légitime pour développer un système d’IA (18) témoigne d’une certaine tolérance concernant ce type de pratiques.

Position de la Cnil sur l’intérêt légitime
La Cnil, ayant pris en compte les retours du terrain, y a notamment précisé que l’intérêt commercial entourant les projets de développement de systèmes d’IA par les entreprises constituait un intérêt légitime à part entière. Elle a également admis que cette base légale pouvait être mobilisée par un réseau social qui collecte des données d’utilisateurs rendues librement accessibles et manifestement publiques sur son forum en ligne afin de développer un agent conversationnel. Cette prise en compte par la Cnil des réalités économiques et opérationnelles est bienvenue et rassurera les développeurs de systèmes d’IA qui envisagent d’utiliser ou de constituer de grandes bases de données pour entraîner leurs modèles. @

Titulaires de droit et entraînement des IA : entre droit d’auteur recomposé et procès en série

Pendant que les systèmes d’IA prolifèrent en s’entraînant sur de quantités de données multimédias, les procès se multiplient dans le monde entre auteurs de contenus protégés et IA génératives – oscillant entre piratage, fair use ou encore exception pour « fouille de textes et de données ».

Par Christiane Féral-Schuhl et Richard Willemant, avocats associés, cabinet Féral

C’est un sujet à donner des sueurs froides aux titulaires de droit d’auteur ! Avec l’entrée en vigueur du règlement européen du 13 juin 2024 sur l’intelligence artificielle (IA) – l’AI Act (1) – et l’articulation des nouveaux usages de modèles d’IA avec les principes juridiques établis, les juridictions du monde entier naviguent à vue, tiraillées entre l’impératif d’innovation et le respect du droit d’auteur.

Nécessaire autorisation des titulaires de droit
Les données seraient-elles véritablement « l’or noir » du XXIe siècle ? Leur collecte et leur utilisation à des fins d’entraînement des systèmes d’IA semblent confirmer leur valeur économique stratégique à l’ère du tout-numérique. Or, la collecte massive et automatisée (aussi appelée « moissonnage » ou « web scraping ») de données accessibles sur les réseaux sociaux – comme cela a été récemment annoncé par la société Meta Platforms concernant les utilisateurs d’Instagram et de Facebook – et plus globalement sur Internet, comporte le risque de traiter des données protégées. Et ce, à l’image de celles concernant des œuvres originales, pour lesquelles une autorisation du titulaire de droit est requise.
La question est de savoir dans quelles conditions le fournisseur de système d’IA peut avoir recours à des données d’entraînement sur lesquelles des titulaires détiennent des droits d’auteur. En France, la protection des œuvres est très claire : « Toute représentation ou reproduction intégrale ou partielle faite sans le consentement de l’auteur ou de ses ayants droit ou ayants cause est illicite » (2), dit le code de la propriété intellectuelle (CPI). En principe, toute utilisation non autorisée d’un contenu protégé par le droit d’auteur à des fins d’entraînement d’un système d’IA est donc illicite.
Ainsi, les procédures engagées contre des fournisseurs de tels systèmes d’IA (suite) , afin de faire reconnaître une violation de droits d’auteur, se multiplient. En mars 2025, le Syndicat national de l’édition (SNE), la Société des gens de lettres (SGDL) et le Syndicat national des auteurs et des compositeurs (Snac) ont agi à l’encontre de Meta Platforms car la société américaine aurait utilisé massivement des œuvres protégées sans autorisation pour entraîner son modèle d’IA (3). De l’autre côté du globe, les juges chinois ont reconnu une atteinte au droit d’auteur protégeant le personnage japonais « Ultraman » par un fournisseur de système d’IA qui permettait à ces utilisateurs de générer des illustrations très similaires au personnage protégé (4).
Aux Etats-Unis, un jugement sommaire (« summary judgment ») retient notre attention : Ross Intelligence, une entreprise développant un outil juridique basé sur l’IA, a souhaité utiliser le contenu de la base de données Westlaw, appartenant au groupe canadien d’agence de presse et d’édition Thomson Reuters, pour entraîner son modèle d’IA. N’ayant pas obtenu de licence, elle s’est alors tournée vers la société LegalEase afin d’acheter des « bulk memos », à savoir des compilations de questions-réponses juridiques s’inspirant du contenu de Westlaw. Ross Intelligence a ainsi pu commercialiser un système d’IA proposant des fonctionnalités très similaires à celles de Westlaw. Saisie par Thomson Reuters pour violation de son droit d’auteur, la justice a reconnu une reproduction substantielle des œuvres protégées.
Ross Intelligence a ensuite tenté, sans succès, d’invoquer l’exception de « fair use » (5), sa démonstration échouant en raison de l’effet concurrentiel sur le marché de son IA et de l’absence d’objectif véritablement distinct entre les deux solutions. Si cette décision reste pour l’instant provisoire, elle n’en est pas pour le moins éclairante dans un contexte où les prises de position du US Copyright Office (USCO), lequel semble privilégier la protection des titulaires de droit, exacerbent les tensions avec l’administration Trump, pro-innovation (6).

Fouille de textes et de données : une brèche
L’absence d’autorisation préalable cristallise donc les contentieux entre fournisseur de système d’IA et titulaire de droits, et ce, alors que l’utilisation d’œuvres protégées représente une forte valeur ajoutée lors de l’entraînement des grands modèles de langage (LLM), et en particulier pour les IA génératives, désormais perçues comme de véritables outils de substitution aux créateurs humains (7). Il existe toutefois dans l’Union européenne une exception à l’obligation d’obtenir l’autorisation préalable du titulaire de droits pour utiliser des données protégées. En application de la directive européenne « Droit d’auteur et droits voisins dans le marché unique numérique » du 17 avril 2019, dite directive « Copyright » (8), le droit français a introduit l’article L.122-5- 3 du CPI. Celui-ci autorise « des copies ou reproductions numériques d’œuvres auxquelles il a été accédé de manière licite […] en vue de fouilles de textes et de données menées à bien par toute personne, quelle que soit la finalité de la fouille […] ».

Fouille de textes et de données : une brèche
Concrètement, cette exception de fouilles de textes et de données – en anglais, Text and Data Mining (TDM) – garantit au fournisseur de système d’IA le droit de « moissonner » un grand volume de données librement accessibles afin d’entraîner son modèle d’IA. Cette exception a été reconnue en Allemagne dans une affaire opposant un photographe (Robert Kneschke) à une organisation à but non lucratif (LAION), connue pour fournir des jeux de données d’entraînement (9). Le litige est survenu après que le photographe eut découvert l’une de ses œuvres, disponible sur une plateforme en ligne, intégrée dans un jeu de données. En application de l’exception de fouilles de textes et de données, aucune violation du droit d’auteur n’a été retenue, malgré l’absence d’autorisation pour la reproduction de la photographie. Bien que fondée sur l’exception de fouilles de textes et de données à des fins de recherche scientifique, cette décision datée du 27 septembre 2024 (10) illustre la stratégie que pourrait adopter le fournisseur de système d’IA pour se défendre contre les revendications des titulaires de droits.
Or, il s’agit de trouver le juste équilibre entre, d’une part, la « protection des titulaires de droits, notamment les artistes », et, d’autre part, la liberté « d’exploration de textes et de données, en particulier par les développeurs d’IA » (11). Ce débat a encore récemment suscité d’intenses polémiques au Royaume-Uni, à la suite d’une consultation menée – de décembre 2024 à février 2025 (12) – par le gouvernement britannique qui a ouvert la voie à l’introduction dans la législation d’une exception similaire. Cependant, les titulaires de droits peuvent choisir de réserver l’exploitation de leurs œuvres protégées, afin d’empêcher leur utilisation au titre de l’exception de la fouille de textes et de données, sauf lorsque celle-ci est réalisée à des fins de recherche scientifique (13). Ce droit d’opposition – également appelé mécanisme d’« opt-out » – est encadré en France par le CPI (14). L’opposition n’a pas à être motivée et peut être exprimée par tout moyen. S’agissant de contenus mis à la disposition du public en ligne, elle peut (sans que cette liste soit limitative) se manifester par l’intégration de métadonnées lisibles par machine, ou encore par une mention dans les conditions générales d’utilisation d’un site Internet ou d’un service. Pour pouvoir bénéficier de l’exception, le fournisseur de système d’IA doit donc non seulement accéder licitement aux données, mais également s’assurer qu’aucune opposition n’a été exprimée. Dans le prolongement, on note que le respect des règles en matière de droit d’auteur par le fournisseur d’IA est désormais inscrit dans l’AI Act (15). En pratique, cela implique que, pour moissonner les données de sites Internet à des fins d’entraînement de modèles d’IA, le fournisseur ne doit pas contourner d’éventuels dispositifs de protection, tels qu’un accès restreint via un compte utilisateur, et doit vérifier, au moment de l’extraction, que ni les conditions générales d’utilisation ni les mentions légales ne contiennent de clause interdisant l’extraction des données. Il doit également s’assurer que les métadonnées du site en ligne ne traduisent pas une telle interdiction. Ainsi, lorsqu’un titulaire de droits s’est valablement opposé à l’extraction de ses contenus, le fournisseur d’IA ne peut procéder à leur utilisation sans avoir obtenu une autorisation expresse, par le biais d’un accord de licence ou de partenariat (16), à l’instar de l’accord entre la société OpenAI et les journaux Le Monde, Die Welt et El País (17).
Enfin, le fournisseur de système d’IA est désormais soumis à une obligation de transparence : afin de permettre aux titulaires de droits de s’assurer que les données utilisées pour l’entraînement des modèles IA ont été collectées dans le respect des règles de droits d’auteur, le fournisseur doit établir un « résumé suffisamment détaillé » des contenus utilisés pour l’entraînement. Ce résumé est destiné à être publié dans la politique de conformité, mais doit néanmoins veiller à préserver le secret des affaires ainsi que la confidentialité de certaines informations (18). Doit notamment être indiqués les URL des sites Internet sources, la date de moissonnage, ainsi que la nature et le volume des données exploitées. En revanche, les informations plus précises relatives aux modalités techniques d’utilisation des contenus, par exemple des procédés de filtrage, ne sont pas tenues d’être divulguées.

Multiplication des contentieux « IA »
Si les mécanismes actuels permettent, en principe, de garantir le respect des droits d’auteur dans un cadre juridique en constante évolution, la multiplication des contentieux visant les entreprises pionnières dans le domaine de l’IA met en lumière la complexité de concilier protection effective des droits d’auteur et valorisation économique des données. Une illustration vient de nous en être donnée par la Cour d’appel de Paris qui, le 7 mai 2025 (19), a sanctionné pour concurrence déloyale l’exploitant d’une plateforme d’IA juridique (Doctrine.fr éditée par Forseti) qui a constitué de manière illicite sa base de données juridiques. @

AI Act, DSA, MiCA, … Superposition réglementaire : le casse-tête européen pour les projets innovants

L’ambition européenne pour un « marché unique numérique » a généré un véritable labyrinthe de textes réglementaires que nul n’est censé ignorer, pas même les start-up et les fintech, sauf à devenir hors-la-loi. Mais à ce patchwork s’ajoute le manque de coordination entre autorités compétentes.

Par Arnaud Touati, avocat associé, et Mathilde Enouf, juriste, Hashtag Avocats

L’Union européenne a une ambition manifeste : réguler de manière exemplaire la transition numérique. Du règlement sur l’intelligence artificielle (AI Act) aux directives concernant les services numériques (DSA/DMA), en passant par la régulation des actifs numériques (MiCA) et la résilience opérationnelle du secteur financier (DORA), le législateur européen ne cesse d’introduire des normes structurantes. Chacun de ces textes, pris séparément, a pour objectif de pallier une carence. Ensemble, ils constituent un écosystème réglementaire complexe, parfois dépourvu de cohérence, souvent difficile à appliquer.

Accumulation de textes sans réelle coordination
Pour les initiatives novatrices, en particulier les start-up et les fintech, cette accumulation de normes peut rapidement devenir complexe. Cela est d’autant plus vrai que les normes et directives techniques ne cessent de croître, changeant constamment le champ de la conformité sans perspective de stabilité à moyen terme ni durabilité juridique. Actuellement, le cadre réglementaire en Europe se fonde sur plusieurs éléments-clés. L’AI Act (1) met en place une catégorisation des systèmes d’intelligence artificielle basée sur leur niveau de risque, imposant des exigences rigoureuses aux systèmes considérés comme étant « à haut risque ». Le DSA (2) et le DMA (3) ont pour objectif de réguler les grandes plateformes numériques tout en offrant une protection accrue aux utilisateurs. MiCA (4) régule la création de jetons et l’offre de services liés aux crypto-actifs. DORA (5) impose des normes rigoureuses de cybersécurité dans le domaine financier. De nombreux intervenants de l’écosystème sont également soumis aux règles (suite) anti-blanchiment. On peut également trouver d’autres documents transversaux, sectoriels ou techniques. Cela constitue un millefeuille réglementaire complexe où les obligations s’accumulent sans véritable coordination, engendrant des superpositions et parfois même des contradictions. Chaque texte s’appuie sur ses propres définitions, logiques, et fait appel à diverses autorités de supervision, sans qu’il y ait une articulation claire entre elles. Une start-up œuvrant dans divers secteurs tels que les actifs numériques et l’intelligence artificielle se voit donc confrontée à des chronologies disparates, des seuils de déclenchement discordants et des demandes de documentation non-uniformes. Ce fractionnement rend les procédures de conformité beaucoup plus lourdes et entrave l’aptitude à innover dans un environnement juridique stable.
Les stablecoins sous MiCA, règlement européen sur les marchés de cryptoactifs, et PSD2, directive européenne sur les services de paiement (6), constituent un cas emblématique. Les jetons de monnaie électronique en eux-mêmes (ou EMT, pour Electronic Money Token, ou E-Money Token), appelés aussi « stablecoins monodevise » (adossés à une monnaie officielle comme l’euro), démontrent les conséquences néfastes que peut engendrer une superposition de la réglementation. Selon MiCA, ces tokens sont considérés comme de la monnaie électronique. Cependant, les transactions de transfert associées peuvent aussi être soumises à la directive PSD2, avec toutes les obligations qui en découlent. Ainsi, un même acteur est soumis à une double contrainte réglementaire : il doit se procurer à la fois une licence en tant que fournisseur de services sur actifs numériques (CASP (7), ou PSCA (8) en français) conformément au règlement MiCA, et une autorisation pour l’établissement de paiement selon PSD2. Ces deux régimes nécessitent des procédures d’approbation différentes, possèdent des critères de capital propre superflus, imposent des responsabilités divergentes et soulèvent des questions concernant la classification juridique de certaines actions, telles que les transferts internes à un utilisateur ou les mouvements vers des portefeuilles autogérés. Malgré les mises en garde des syndicats professionnels, la réaction de certaines autorités de régulation en Europe demeure pour l’instant insuffisante, bien que nos autorités françaises fassent un travail remarquable sur le sujet.

DORA, une usine à conformité pour la finance
Si aucune action n’est entreprise, de nombreux intervenants pourraient abandonner les services de transfert d’EMT, ce qui va à l’encontre des objectifs de MiCA, lequel vise précisément à promouvoir l’adoption de ces actifs numériques. Concernant cette fois le règlement sur la résilience opérationnelle numérique, également connu sous le nom de DORA, il est entré en vigueur à partir de janvier 2025. Il impose aux institutions financières un cadre global de gestion des risques associés aux technologies de l’information. Cela englobe l’élaboration d’un plan de gestion du risque « TIC » (9), l’alerte en cas d’incidents majeurs, la conduite de tests de résilience numérique, ainsi que la nécessité de maintenir un registre précis des contrats avec les fournisseurs de services informatiques tiers. Bien que ces initiatives visent à renforcer la sécurité systémique, leur application s’avère très complexe pour les petites entités. De nombreuses start-up et fintech manquent des ressources et des compétences internes nécessaires pour répondre à ces exigences. La notion de proportionnalité stipulée dans le règlement est fréquemment comprise de façon restrictive et demeure floue quant à ses modalités d’application pratiques.

AI Act : flous techniques, complexité procédurale
La réglementation sur l’intelligence artificielle ajoute une couche additionnelle. L’AI Act impose des exigences strictes aux systèmes classés comme « à haut risque » : documentation technique, supervision humaine, qualité des données, transparence et inscription obligatoire dans une base de données européenne. Il est possible que les sanctions aillent jusqu’à 7 % du chiffre d’affaires à l’échelle mondiale. L’instauration de « bacs à sable réglementaires » est bien prévue, mais leur réalisation prend du temps. Entretemps, les initiatives doivent naviguer entre les réglementations existantes dans leur domaine respectif (santé, automobile, services publics, …) et les exigences récentes imposées par la réglementation sur l’IA, sans aucune coordination entre les autorités compétentes. La définition même de ces systèmes pose problème : IA intégrée, IA générative, open source, … aucune de ces classifications n’est précisément définie, ce qui rend les stratégies de conformité floues. Le dilemme du guichet unique demeure aussi sans solution : une entreprise concevant une IA employée dans divers contextes doit composer avec autant d’autorités qu’il y a de domaines d’application.
Quant aux DSA et DMA, s’ils ciblent prioritairement les grandes plateformes, ces règlements affectent également les plus petits acteurs par ricochet sur l’ensemble de l’écosystème. Une start-up qui propose une solution technique à un acteur qualifié de « gatekeeper » (contrôleur d’accès), se retrouve indirectement soumise à des exigences de conformité étendues : traçabilité, documentation, obligations de transparence, et compatibilité renforcée au RGPD, le règlement général sur la protection des données (10).
Ces obligations s’appliquent même lorsque la start-up ne traite pas directement de données personnelles ou de contenus modérés, mais fournit simplement un service technique – API (Application Programming Interface), infrastructure, algorithmes de recommandation – utilisé en aval par une plateforme réglementée. L’effet est immédiat : elle doit produire des audits, garantir l’interopérabilité, prouver l’absence de pratiques déloyales, et documenter ses choix techniques, parfois en plusieurs langues, à destination des autorités nationales de différents Etats membres. Sans pouvoir de négociation, et sans accès aux ressources de conformité des grands groupes, ces petites structures se retrouvent piégées dans une logique de compliance excessive. Ce n’est plus l’activité elle-même qui génère du risque, mais la simple appartenance à une chaîne de valeur numérique réglementée. Cette situation crée une inégalité de traitement qui freine l’innovation, décourage la prise de risque, et oriente les jeunes pousses vers des marchés plus permissifs. Les investisseurs, eux aussi, deviennent frileux à l’idée d’accompagner des projets exposés à une telle incertitude juridique. Quant aux avocats et aux directions juridiques internes, ils doivent souvent interpréter à l’aveugle des règlements conçus pour des géants du numérique, mais appliqués sans nuance à des entités de dix salariés.
L’approche globale attendue pour tous ces documents devait être celle de la cohérence, de la confiance et de l’indépendance numérique. Toutefois, l’accumulation non-synchronisée de ces réglementations conduit à une situation contradictoire : des normes conçues pour sécuriser les initiatives numériques génèrent l’effet opposé.
La disparité des parties prenantes, les interprétations différentes, les retards d’approbation inconsistants et l’absence de moyens de simplification pour les petites entités rendent le paysage réglementaire de l’Union européenne ardu à déchiffrer. On constate également une instabilité des lignes directrices, qui changent parfois sans consultation préalable ni soutien. Les responsables de la régulation ont également du mal à répondre aux demandes, ce qui prolonge l’incertitude pour les intervenants. Cette complexité induit une réticence à l’innovation, un transfert des projets vers des juridictions plus laxistes, et une constante incertitude juridique. L’Europe dispose à la fois d’expertise et de vision. Cependant, elle a du mal à concilier ses aspirations avec les conditions réelles sur le terrain. Il est crucial de réévaluer la régulation en se basant sur des principes opérationnels : établissement de guichets sectoriels unifiés, standardisation des délais d’autorisation, définition claire des situations de double régulation, application effective du principe de proportionnalité, avancée rapide des mécanismes de bac à sable.

Europe : repenser l’architecture de la régulation
Cela nécessite également d’intensifier la communication entre les instances nationales et européennes, de fournir des modèles de conformité aisément modifiables, et d’établir une direction stratégique de la transition réglementaire par secteur. Les intervenants économiques requièrent de la clarté, de la constance et la possibilité de prévoir. Sans ce remodelage méthodologique, les projets les plus prometteurs risquent de ne plus voir le jour en Europe. Et la régulation, supposée fournir un atout stratégique, se transformera en obstacle persistant à la compétitivité du Continent. Sans parler de la souveraineté numérique européenne qui, face à tant de complexités juridiques, risque de rester un vœu pieu. @

Le groupe « LVMH Médias » se retire face à Meta

En fait. Le 12 mai, Edition Multimédi@ a appris que le groupe Les Echos-Le Parisien venait de se retirer de la plainte de 67 éditeurs français, déposée le 22 avril devant le tribunal économique de Paris, contre le géant Meta (Facebook, Instagram, …) accusé de pratiques illégales dans la publicité en ligne.

En clair. « Les Echos se sont retirés de la plainte des médias français qu’ils avaient largement contribué à monter contre Meta », a fait savoir le 12 mai dans un post sur LinkedIn Eric Scherer, directeur du MediaLab de l’information et des affaires internationales de France Télévisions. Le groupe de télévision publique fait partie des 67 éditeurs de 200 médias français qui ont porté plainte le 22 avril – devant le tribunal des activités économiques de Paris (ex-tribunal de commerce) – contre les « pratiques illégales » dans la publicité en ligne de Meta Platforms (1), la maison mère de Facebook, Instagram et de WhatsApp. Parmi les plaignants, il y a aussi Radio France, TF1, Le Figaro, RMC BFM, Lagardère (Europe 1, Paris Match, Le JDD), Libération, Ouest France, Centre France, La Voix du Nord, La Dépêche, ou encore Marianne.
Le groupe Les Echos-Le Parisien, dirigé par Pierre Louette, était de la partie et même moteur dans cette action judicaire contre la firme de Mark Zuckerberg. Mais la filiale média de LVMH a donc renoncé en se désolidarisant de ce front commun. Pourquoi ? Eric Scherer avance « un indice » (2) qui n’est autre qu’un (suite)

post vidéo du quotidien Le Figaro publié le 7 mai sur X (ex-Twitter) : « Le président américain [Donald Trump] a qualifié le PDG de LVMH [Bernard Arnault] et son fils Alexandre, qui l’accompagnait, de “très bons amis” » (3).
En creux, l’homme le plus riche de France et 6e fortune mondiale (4) – et ex-1ère mondiale – n’aurait pas voulu froisser son « ami » – de longue date – à la Maison-Blanche, où il a été reçu le 6 mai dans le Bureau ovale avec son fils aîné Alexandre. « Bernard, c’est un honneur de vous avoir ici ; nous allons avoir une réunion après ceci », lui avait lancé Donald Trump.
De là à ce que le président des Etats-Unis – à l’investiture duquel Bernard Arnault a aussi assisté le 20 janvier – lui ait demandé de retirer sa plainte contre son autre nouvel ami Mark Zuckerberg… Ce n’est pas la première fois que le groupe Les Echos-Le Parisien renonce à poursuivre en justice une Big Tech américaine : ce fut le cas contre X détenu par Elon Musk, un autre ami du locataire de la Maison-Blanche. « LVMH Médias » s’est là aussi désolidarisé, a rapporté Reuters en février (5), de l’action judiciaire intenté par plusieurs médias français qui accusent l’ex-Twitter de ne pas les rémunérer au titre des droits voisins. @