16 milliards d’identifiants volés : les infostealers défient le RGPD en ciblant les utilisateurs finaux

Une fuite de données d’ampleur inédite – orchestrée par des infostealers, nouvelle génération de voleurs de données – révèle les failles béantes de nos écosystèmes numériques et interroge l’efficacité du cadre juridique européen face aux nouvelles formes de cybercriminalité. Le RGPD doit évoluer.

Par Emma Hanoun, avocate, cabinet Odoné

L’exposition de 16 milliards d’identifiants de connexion, révélée par l’équipe de recherche de Cybernews en juin 2025, constitue l’une des plus importantes fuites de données personnelles jamais documentées (1). Cette mégafuite, fruit de l’activité proliférante des logiciels malveillants de type infostealer (voleur d’information), questionne l’efficacité du cadre réglementaire européen en matière de protection des données personnelles.

Les fuites à grande échelles se succèdent
Face à la sophistication croissante des cyberattaques et à l’évolution du marché clandestin des données, cette affaire interroge la capacité du règlement général sur la protection des données (RGPD) à garantir une protection effective des citoyens européens, et impose une réflexion approfondie sur la responsabilisation des acteurs du numérique. La fuite révélée par le chercheur en cybersécurité Bob Diachenko (2), et publiée par Cybernews, concerne 16 milliards d’identifiants issus de trente bases de données piratées différentes, rassemblées sur un serveur accessible publiquement. Outre des plateformes majeures comme Apple, Google ou Facebook, les données exposées concernent un large éventail de services – réseaux sociaux, messageries (Telegram), outils de développement (GitHub), environnements cloud, plateformes gouvernementales et outils professionnels – et illustrent la vulnérabilité généralisée de l’écosystème numérique. Cette exposition de données constitue l’une des plus massives jamais documentées et s’inscrit dans une série de fuites à grande échelle, à l’instar de la MOAB (3) de janvier 2024 (un regroupement de plus de 26 milliards d’enregistrements issus de milliers de fuites antérieures, dont ont été victimes Tencent, LinkedIn, Adobe ou encore Weibo), de RockYou2024 (10 milliards de mots de passe, succédant à RockYou2021 et ses 8,4 milliards de mots de passe), ou encore de la fuite chinoise de mars 2024 touchant WeChat et Alipay, appartenant respectivement aux chinois Tencent et Alibaba.
Les infostealers constituent une catégorie spécifique de logiciels malveillants conçus pour (suite) l’exfiltration silencieuse de données, en infectant directement les terminaux des utilisateurs. Une fois installés (généralement via un faux document, une application piégée ou un logiciel piraté), ils aspirent tout ce qui est stocké localement : URL de connexion, identifiants, mots de passe sauvegardés, données de formulaires auto-complétés, cookies de session, tokens d’authentification, données bancaires ou portefeuilles de cryptomonnaie, etc. Contrairement aux ransomwares (en français, rançongiciels) qui paralysent les systèmes, le mode opératoire de ces attaquants repose sur l’ingénierie sociale et l’exploitation de vulnérabilités humaines : diffusion via des logiciels piratés, documents PDF infectés, modifications de jeux vidéo ou applications factices.
La présence de cookies de session et de tokens d’authentification permet aux pirates de contourner les protections habituelles telles que la double authentification. Par exemple, grâce à ces métadonnées volées, un pirate peut se connecter à un compte bancaire, à une messagerie (Gmail, Outlook, …), ou à une plateforme de paiement (de type PayPal) sans avoir à saisir le mot de passe ni à franchir une authentification à deux facteurs. Il se fait passer pour l’utilisateur légitime, car il dispose des « clés » de session actives. Au surplus, la fraîcheur des données qui, contrairement aux compilations historiques recyclant d’anciennes fuites, proviennent d’activités récentes, confère une valeur exploitable immédiate aux cybercriminels. La démocratisation de ces outils sur les forums du dark web, avec l’émergence de plateformes de « Malware-as-a-Service » (MaaS) et de solutions clés en main comme RedLine, Raccoon ou Vidar, a considérablement abaissé les barrières techniques d’entrée pour les cybercriminels, permettant à des acteurs moins techniques de mener des campagnes sophistiquées. Cette accessibilité explique la prolifération exponentielle des attaques et la multiplication des datasets, ou jeux de données, exposés. Cette industrialisation du cybercrime pose des défis inédits aux autorités de régulation et aux forces de l’ordre. La fuite de 16 milliards d’identifiants cristallise plusieurs enjeux juridiques majeurs.

Responsabilité : le défi de la territorialité
D’abord, la question de la territorialité du RGPD face à des attaques globales menées depuis des juridictions échappant au contrôle européen. En effet, si le RGPD établit son champ d’application territorial (4), son effectivité reste conditionnée à la coopération internationale et aux mécanismes d’entraide judiciaire. Ensuite, la problématique de l’attribution de responsabilité lorsque les données sont exfiltrées depuis le terminal personnel de l’utilisateur infecté et non d’une plateforme attaquée. De plus, la chaîne de responsabilité devient complexe à établir, particulièrement lorsque les données sont agrégées par des tiers non identifiés avant leur exposition publique. L’ampleur de cette violation interroge donc l’adéquation des mécanismes de notification prévus par le RGPD (5), conçus pour des incidents plus circonscrits.

Nouvelles attaques et limites du RGPD
L’article 32 du règlement européen impose aux responsables de traitement et aux sous-traitants la mise en œuvre de « mesures techniques et organisationnelles appropriées afin de garantir un niveau de sécurité adapté au risque ». Cette obligation générale se décline en plusieurs exigences spécifiques : pseudonymisation et chiffrement des données, capacité de garantir la confidentialité, l’intégrité, la disponibilité et la résilience constantes des systèmes, capacité de rétablir la disponibilité et l’accès aux données en temps utile en cas d’incident, et procédure de test et d’évaluation régulières de l’efficacité des mesures. Face à la sophistication des infostealers, ces obligations révèlent leurs limites structurelles. Par exemple, le chiffrement des données, bien qu’obligatoire, ne protège pas contre l’exfiltration d’identifiants stockés en local sur les postes utilisateurs. Dans le même sens, la résilience des systèmes devient illusoire lorsque l’attaque cible directement les terminaux des utilisateurs légitimes, en amont de tout système de protection centralisé. Cette inadéquation soulève la question de l’interprétation extensive de l’article « Sécurité du traitement » (6) : les autorités de contrôle pourraient-elles exiger des responsables de traitement qu’ils déploient des mesures de protection sur les terminaux de leurs utilisateurs ?
Le principe de d’accountability consacré par le RGPD (7) impose aux responsables de traitement de démontrer leur conformité aux principes de protection des données. Cette obligation positive implique une démarche proactive de sécurisation. Dans le contexte des infostealers, cette responsabilisation interroge l’étendue des obligations des responsables de traitement : doivent-ils anticiper et prévenir les comportements à risque de leurs utilisateurs en déployant des outils de détection sur les terminaux ? L’obligation de sécurité s’étend-elle à la sensibilisation et à la formation des personnes concernées ? La jurisprudence européenne tend vers une interprétation extensive de ces obligations. L’arrêt « Fashion ID » (8), rendu en juillet 2019 par la Cour de justice de l’Union européenne (CJUE), a établi que la responsabilité peut s’étendre au-delà du contrôle direct des données, ouvrant la voie à une responsabilisation accrue des acteurs numériques face aux risques indirects. L’analyse de cette méga-fuite révèle donc un décalage croissant entre la sophistication des vecteurs d’attaque et l’efficacité des obligations réglementaires. Les infostealers exploitent principalement les vulnérabilités humaines et les faiblesses des terminaux utilisateurs, domaines où l’action des responsables de traitement reste limitée. Le RGPD, conçu dans une logique de protection des données au niveau des serveurs et des systèmes d’information centralisés, peine à appréhender les attaques ciblant directement les utilisateurs finaux. Cette limitation structurelle nécessite une évolution du cadre réglementaire vers une approche plus holistique de la cybersécurité, intégrant la sécurité des terminaux et la sensibilisation des utilisateurs.
L’adoption généralisée de technologies d’authentification avancées devient un impératif face à l’inefficacité démontrée des mots de passe traditionnels. Les passkeys (clés d’accès) émergent comme une solution technologique robuste – adoptés notamment par Apple, Google et Microsoft. Cette technologie est basée sur les standards FIDO2 (Fast Identity Online 2), portés par la FIDO Alliance, et WebAuthn (Web Authentication), standardisé par le W3C (9), pour la génération de paires de clés cryptographiques : une clé privée conservée sur le terminal de l’utilisateur et une clé publique stockée par le service. L’authentification s’effectue par signature cryptographique, sans transmission d’informations sensibles, éliminant les vulnérabilités inhérentes aux mots de passe classiques. En effet, cette architecture rend impossible la réutilisation des identifiants entre services et immunise contre les attaques de phishing (hameçonnage).
Aussi, l’authentification à deux facteurs (2FA) ou multi-facteurs (MFA) – bien qu’imparfaite en présence de cookies de session et de tokens d’authentification dans les données volées, constitue une mesure de sécurité essentielle face aux menaces contemporaines, et sa généralisation est également une réponse technologique prometteuse. L’évolution vers des méthodes d’authentification continue, analysant en permanence le comportement de l’utilisateur (biométrie comportementale, analyse des patterns de navigation), pourrait offrir une protection plus robuste contre ces attaques sophistiquées. L’imposition de standards minimaux d’authentification pour certains services sensibles, sur le modèle de la directive européenne sur les services de paiement de novembre 2015, dite DSP2 (10), constituerait une réponse proportionnée aux risques identifiés.

Renforcer les standards de sécurité
La fuite de 16 milliards d’identifiants révèle les limites du cadre réglementaire actuel face à l’évolution des cyberattaques qui s’en prennent directement aux terminaux des utilisateurs, contrairement à des vols non moins massifs de données personnelles visant un système central – comme ce fut le cas pour 19,2 millions d’abonnés de Free (Iliad) en octobre 2024, dont 5,1 millions de coordonnées bancaires (11). L’enquête et l’instruction suivent leur cours. Si le RGPD a considérablement renforcé la protection des données personnelles, son efficacité reste conditionnée à l’adaptation des pratiques technologiques et organisationnelles aux nouveaux types d’attaques de plus en plus sophistiqués. @

Entraînement des IA avec les données personnelles de Facebook et d’Instagram : validation européenne ?

Une décision rendue le 23 mai 2025 par un tribunal de Cologne (OLG Köln), couplée aux échanges préalables avec la « Cnil » irlandaise (DPC) et à la mise en place des mesures proposées par cette dernière, entérine la possibilité pour Meta de lancer son projet d’entraînement des modèles d’IA.

Par Sandra Tubert, avocate associée, et Miguel Piveteau, élève avocat, Algo Avocats

Le groupe Meta Platforms utilise depuis le 27 mai 2025 les données partagées publiquement par les utilisateurs majeurs et les comptes institutionnels sur ses services Facebook et Instagram (1) : publications, photos, vidéos ou encore commentaires (exceptés les messages échangés entre utilisateurs et contenus privés), mais aussi les interactions des utilisateurs avec ses systèmes d’intelligence artificielle (IA) pour entraîner ses grands modèles de langage (LLM) comme Llama.

Décision d’un tribunal de Cologne
A la différence de X (ex-Twitter) (2), Meta a engagé un dialogue constructif avec l’autorité irlandaise de protection des données (DPC). En effet, avant que le grand public ne découvre ce nouveau projet fin mai 2024, Meta avait informé la DPC, au mois de mars 2024, de son souhait d’utiliser les contenus publics de ses utilisateurs européens de Facebook et d’Instagram pour l’entraînement de ses modèles d’IA (3). Meta avait finalement suspendu le projet, le 14 juin 2024 (4), après le dépôt de plusieurs plaintes par l’organisation autrichienne Nyob auprès de onze autorités de contrôle européennes (5) et d’échanges avec la DPC (6), laquelle avait émis des réserves concernant notamment (suite) la base légale et la transparence d’un tel traitement. Le 4 septembre 2024, la DPC avait alors demandé au Comité européen sur la protection des données (EDPB) de rendre un avis sur l’utilisation de données personnelles pour le développement et le déploiement de modèles d’IA (7). Tenant compte de cet avis du 17 décembre (8), Meta a réévalué certaines modalités de son projet (notamment le renforcement des mesures de filtrage pour réduire le risque que des données personnelles soient mémorisées par les modèles d’IA lors de la phase d’entraînement) et a fourni à la DPC une documentation actualisée dans l’optique de débuter l’entraînement de ses modèles d’IA le 27 mai 2025.
Après avoir examiné les propositions de Meta et recueilli les commentaires des autres autorités de contrôle européennes, la DPC a formulé un certain nombre de recommandations qui ont été appliquées par Meta, parmi lesquelles la simplification des formulaires d’opposition au traitement et leur accessibilité pendant plus d’un an, la fourniture d’une information claire sur les moyens permettant aux utilisateurs de contrôler les données utilisées (paramétrage des contenus en mode privé), et un délai plus long entre ces informations et le lancement du projet pour leur permettre réellement de s’y opposer (9). L’annonce de ce projet a suscité une levée de boucliers par plusieurs associations, telles que UFC-Que Choisir (10) en France ou Noyb en Autriche. Cette dernière a notamment adressé à l’entreprise une mise en demeure (11), se réservant la possibilité d’intenter une action de groupe au civil. En parallèle, une association de consommateurs allemande (VZNRW) a saisi en référé le tribunal régional supérieur de Cologne – Oberlandesgericht Köln (OLG Köln) – afin qu’il soit interdit à Meta de traiter les données personnelles partagées publiquement par les utilisateurs sur les services Facebook et Instagram afin de développer et améliorer ses IA. Dans une décision (12) rendue le 23 mai 2025, le tribunal rejette la demande de l’association (après un examen qu’il qualifie de sommaire de l’affaire, mais qui est pourtant très étayé), et ne remet pas en cause la légalité du projet de Meta. En effet, en s’appuyant sur une argumentation documentée, conforme à l’avis de l’EDPB et enrichie de l’avis circonstancié des autorités de contrôle des Länder du Bade-Wurtemberg et d’Hambourg, il a écarté, un à un, les griefs soulevés tenant à : la violation du Digital Markets Act (DMA) ; l’impossibilité pour Meta de fonder le traitement sur l’intérêt légitime ; et l’absence d’exception autorisant le traitement de données sensibles. L’OLG Köln a d’abord estimé que la constitution d’une base de données d’entraînement au moyen des données publiques issues des services Facebook et Instagram ne violait pas le DMA (13) – Meta étant désigné comme contrôleur d’accès par la Commission européenne pour ces services essentiels.

Gatekeeper : pas de violation du DMA
Le DMA interdit à tout contrôleur d’accès de combiner, sans consentement préalable de l’utilisateur, les données personnelles provenant d’un service essentiel, qu’il propose aux utilisateurs, avec celles provenant d’un autre service. Selon le tribunal, le fait que Meta introduise des données partiellement désidentifiées et fragmentées provenant de deux services de plateforme dans un ensemble non structuré de données d’entraînement ne constitue pas une combinaison de données, au sens du DMA, en l’absence de lien et mise en relation des données personnelles d’un utilisateur provenant d’un service à celles du même utilisateur provenant d’un autre service. L’OLG Köln valide ensuite le recours à l’intérêt légitime comme base légale de traitement, en réalisant une analyse complète, s’appuyant sur les différents critères exigés par l’EDPB. Le tribunal y reconnaît ainsi que l’intérêt poursuivi, à savoir proposer une IA générative optimisée en fonction des habitudes régionales, quoique commercial, est légitime, puis que le traitement envisagé par Meta s’avère nécessaire pour atteindre cet intérêt en l’absence d’un moyen moins intrusif.

Rapport de Meta pour octobre 2025
Pour démontrer cette nécessité, le tribunal de Cologne mobilise l’AI Act (14) qui reconnaît expressément que le développement et l’entraînement des modèles d’IA génératifs requièrent un accès à de grandes quantités de données (15). S’agissant des moyens moins intrusifs proposés notamment par l’association – à savoir le fait d’utiliser uniquement des données anonymisées ou synthétiques (données qui ne sont pas issues d’une observation réelle, mais qui sont créées artificiellement via des simulations), ou de restreindre l’entraînement aux seules données d’interaction avec les systèmes d’IA –, ils ne permettraient pas, selon l’OLG Köln, d’obtenir des résultats comparables.
Enfin, la mise en balance de l’intérêt légitime poursuivi par Meta avec les intérêts et droits des personnes concernées est jugée adéquate. Le tribunal allemand a identifié les conséquences négatives du traitement, notamment les atteintes aux droits des personnes de décider et contrôler l’usage de leurs données et au droit à l’effacement. Ces conséquences négatives sont toutefois tempérées en raison, d’une part, du caractère public des données traitées limitant les risques liés à une divulgation (puisque ces données sont déjà accessibles librement), et, d’autre part, des mesures de mitigation mises en place par Meta. Sont soulignées les mesures visant à réduire le caractère identifiant des données (incluant la tokenisation) et à les rassembler sous une forme non structurée. Sont également mises au crédit de Meta les possibilités offertes aux utilisateurs pour empêcher l’inclusion de leurs données dans la base d’entraînement : le retrait du statut « public » de leurs publications ou de leur compte ainsi que l’opposition au traitement spécifique des données pour entraîner les modèles d’IA par l’intermédiaire de deux formulaires disponibles en ligne. L’OLG Köln a estimé que l’opposition pouvait ainsi être exercée sans difficulté et de manière éclairée par l’utilisateur dans un délai suffisant (six semaines avant la mise en œuvre effective du traitement). La décision laisse toutefois en suspens la question du caractère effectif de cette possibilité d’opposition pour les tiers non-utilisateurs cités dans les publications ou commentaires. Concernant les attentes raisonnables des personnes concernées, le traitement des données publiées à partir du 26 juin 2024 est jugé prévisible pour les utilisateurs qui ont été informés de ce traitement par l’annonce du 10 juin 2024. S’agissant des données publiées antérieurement, leur traitement n’est, en revanche, pas jugé prévisible car sa finalité n’est pas d’améliorer les services existants de Meta mais de développer des IA utilisables de manière autonome et accessibles à tous. Cette absence de prévisibilité n’est toutefois pas vue comme une difficulté pour la juridiction qui justifie l’absence d’interdiction de traiter ces données au motif que les utilisateurs disposent d’un instrument d’opposition efficace. Enfin, le traitement des données sensibles des utilisateurs est autorisé car il porte sur des données manifestement rendues publiques par l’utilisateur, l’une des exceptions prévues à l’article 9 du RGPD. S’agissant des données sensibles de tiers partagées par les utilisateurs via des publications, le tribunal de Cologne reconnaît que l’exception précédente ne peut pas être mobilisée, mais estime – en s’appuyant notamment sur une jurisprudence de la Cour de Justice de l’UE de 2019 (qui n’aborde pourtant pas cette problématique précise (16)) et sur le fait qu’une application littérale de l’article 9 du RGPD ne permettrait pas d’atteindre les objectifs de l’AI Act – que Meta peut traiter ces données de manière incidente et résiduelle jusqu’à ce que l’interdiction de le faire soit sollicitée par le tiers concerné. Cette décision de l’OLG Köln, couplée aux échanges avec la DPC et à la mise en place des mesures proposées par cette dernière – enrichies de l’avis des autres autorités de l’UE –, entérinent donc la possibilité pour Meta de lancer son projet d’entraînement des modèles d’IA. Mais l’entreprise ne bénéficie pas d’un blanc-seing pour autant.
La DPC suit de près le déploiement du projet et attend un rapport complet de Meta pour le mois d’octobre 2025 contenant, entre autres, des développements sur l’efficacité et l’adéquation des mesures. En parallèle, les autorités de l’UE collaborent (17) pour évaluer plus largement la conformité des traitements envisagés par Meta, notamment en lien avec la phase de déploiement des systèmes d’IA qui pose d’autres questions au regard du RGPD. Meta n’est donc pas totalement à l’abri de l’engagement d’une procédure de sanction par la DPC si des manquements sont constatés. Enfin, bien que la Cnil ne se soit pas officiellement positionnée sur la licéité des pratiques de Meta, la récente mise à jour de ses fiches sur la mobilisation de l’intérêt légitime pour développer un système d’IA (18) témoigne d’une certaine tolérance concernant ce type de pratiques.

Position de la Cnil sur l’intérêt légitime
La Cnil, ayant pris en compte les retours du terrain, y a notamment précisé que l’intérêt commercial entourant les projets de développement de systèmes d’IA par les entreprises constituait un intérêt légitime à part entière. Elle a également admis que cette base légale pouvait être mobilisée par un réseau social qui collecte des données d’utilisateurs rendues librement accessibles et manifestement publiques sur son forum en ligne afin de développer un agent conversationnel. Cette prise en compte par la Cnil des réalités économiques et opérationnelles est bienvenue et rassurera les développeurs de systèmes d’IA qui envisagent d’utiliser ou de constituer de grandes bases de données pour entraîner leurs modèles. @

Avec leur index web européen EUSP, Qwant et Ecosia veulent s’affranchir de Microsoft et concurrencer Google

Le français Qwant et l’allemand Ecosia ont l’ambition de devenir une alternative européenne au quasimonopole de Google dans les moteurs de recherche, où l’IA rebat les cartes. Leur index web européen EUSP vise l’indépendance par rapport à Bing de Microsoft – accusé de pratique anti-concurrentielle.

Selon nos informations, Qwant livre discrètement depuis le mois d’avril en France des résultats – sur son moteur de recherche – issus de l’index web européen codéveloppé avec son partenaire allemand Ecosia, un autre moteur de recherche alternatif. « Nous avons démarré en avril 2025, en France seulement pour le moment, et nous progressons chaque mois : près d’une requête sur deux est servie depuis notre index européen », indique à Edition Multimédi@ Olivier Abecassis (photo de gauche), directeur général de Qwant.
Cet index web européen, appelé European Search Perspective (EUSP), est développé par la joint-venture European Perspective, société créée à Paris en 2024, détenue à parts égales par Qwant et Ecosia, et présidée par Olivier Abecassis. « Pour l’Allemagne, c’est avant fin 2025, plutôt au quatrième trimestre », nous précise-t-il. Les premiers moteurs de recherche alternatifs à profiter de l’accès en temps réel aux données web les plus à-jour et pertinentes de cet index européen sont non seulement Qwant et Ecosia, mais aussi le français Lilo dont Qwant a finalisé l’acquisition mi-mai. « Ecosia et Lilo utiliseront également l’index EUSP pour servir dans les semaines à venir une partie de leurs requêtes en France », nous indique encore celui qui fut directeur du numérique du groupe TF1 (2016-2022).

Index web pour moteurs alternatifs et agents IA
La joint-venture European Perspective compte lever des capitaux auprès d’investisseurs extérieurs pour assurer son développement sur le long terme et être en capaciter de rivaliser avec Google. L’ambition du tandem franco-allemand : « Renforcer une alternative européenne, éthique et indépendante aux Gafam », mais aussi « plus respectueux de la vie privée » (1). Les résultats de recherche seront d’abord en langues française et allemande, une extension à l’anglais étant prévue, avec l’objectif à plus long terme d’être dans toutes les langues européennes. « Cet index pourra être rejoint par d’autres moteurs de recherche et servir de ressource clé pour l’industrie européenne, par exemple en fournissant un pool de données transparent et sécurisé pour (suite) les nouvelles technologies d’intelligence artificielle et pour les nouveaux usages des IA génératives », ont expliqué le patron de Qwant et celui d’Ecosia, l’Allemand Christian Kroll (photo de droite), lors de l’annonce en novembre 2024 de leur association autour de l’EUSP (2).

Enquêtes antitrust sur Microsoft/Bing
Pour que leur index européen – RGPD-compatible (3) – puisse être utilisé par d’autres, que cela soit des développeurs d’intelligence artificielle (agent IA) ou d’autres moteurs de recherche alternatifs, une API (Application Programming Interface) appelée Staan – pour Search Trusted API Access Net-work (4) – a été mise à disposition depuis le 12 juin. « Le lancement d’une API souveraine pour les moteurs de recherche alternatifs, mais aussi pour tous les acteurs de l’IA qui nécessitent des contenus frais, est une étape majeure », se félicite Olivier Abecassis lors de notre échange. Staan (5) arrive à point nommé. Car six ans après avoir passé un « partenariat exclusif » avec Microsoft, pour notamment utiliser l’API de Bing pour « les recherches algorithmiques », la régie publicitaire Microsoft Adverti-sing (exBing Ads) ou encore le service de cloud Azure (6), la firme américaine de Redmond a annoncé mi-mai qu’elle allait mettre un terme aux API de son moteur de recherche Bing à partir du 11 août 2025. « Toutes les instances existantes des API Bing Search seront complètement mises hors service et le produit ne sera plus disponible pour l’utilisation ou l’inscription de nouveaux clients », avertit Microsoft (7), dont la deadline n’est pas du goût des utilisateurs.
Jusqu’à maintenant très dépendant des bibliothèques de Bing, tandis qu’Ecosia l’est non seulement de Bing mais aussi de Google, le français Qwant est déjà très remonté contre son partenaire historique, à tel point qu’il vient de déposer plainte contre lui devant l’Autorité de la concurrence (ADLC), selon les révélations de l’agence Reuters le 3 juin (8). Il reproche à Microsoft d’avoir dégradé la qualité des résultats de son moteur de recherche Qwant via Bing. Le moteur français demande au gendarme de la concurrence de prendre des mesures conservatoires à l’encontre du géant américain, tout en enquêtant sur les pratiques de ce dernier accusé d’abus de position dominante. Microsoft risque dans cette affaire jusqu’à 10 % de son chiffre d’affaires mondial en cas de condamnation par l’ADLC, laquelle n’a pas attendu la plainte de Qwant pour – d’après cette fois l’agence Bloomberg le 10 février dernier (9) – commencer à enquêter sur la dégradation présumée de la qualité des résultats de recherches auprès des moteurs rivaux qui paient pour accéder à l’écosystème de syndication Bing. Questionné sur l’action lancée devant l’autorité antitrust, Olivier Abecassis nous a répondu : « Nous ne commentons pas ce sujet », sans démentir l’action menée. Un porte-parole de Microsoft cité par Reuters début juin a déclaré : « Cette plainte est sans fondement. Nous coopérons pleinement avec l’enquête de l’Autorité de la concurrence ».
De son côté, à Berlin, Ecosia a recours non seulement à Bing mais aussi à Google pour ses résultats de recherche. Mais cette start-up Ecosia « à but non lucratif » n’a pas saisi le gendarme allemand de la concurrence – le Bundeskartellamt (BKartA) – comme nous l’a confirmé son directeur des opérations, Wolfgang Oels : « Nous n’avons pas déposé de plainte officielle en Allemagne contre Microsoft ». Cependant, le BKartA a ouvert en 2023 une enquête sur Microsoft en incluant Bing (10), puis en désignant en 2024 la firme de Redmond comme « entreprise d’une importance capitale pour la concurrence sur tous les marchés » (11). L’étau se resserre donc des deux côtés du Rhin, d’autant plus que Microsoft a été désigné par la Commission européenne comme « contrôleur d’accès » (gatekeeper) – sur Windows (12), dont Bing, et LinkedIn – dans le cadre du Digital Markets Act (DMA) en vigueur depuis le 7 mars 2024. Le marché de niche de la syndication de moteurs de recherche pourrait coûter très cher au « M » de Gafam, si l’infraction devenait caractérisée. Avec Staan, l’API de l’index web européen EUPS, la jointventure European Perspective veut devenir « un acteur clé de la souveraineté numérique européenne et du pluralisme d’accès à l’information via la recherche sur le Web ». Pour l’instant, à juin 2025, Qwant revendique 6 millions d’utilisateurs et Ecosia 20 millions d’utilisateurs. Selon Statcounter (13), la part de marché mondiale de Qwant dans le « search » est de 0,03 % en mai 2025, et en France de 0,77 %. En mai, Qwant a indiqué travailler avec Mistral AI pour optimiser les réponses.

Le « champion » OVH œuvre pour l’EUSP
L’index web européen EUSP est hébergé par le prestataire français OVHcloud, basé à Roubaix et cofondé par le franco-polonais Octave Klaba (photo ci-dessus), son président, lequel a racheté avec son frère Miroslaw Klaba en juin 2023 la société Qwant pour 14 millions d’euros via l’entreprise Synfonium, créée à cette occasion (14). Les deux frères en détiennent tous les deux 75 % via leur holding respective Jezby Ventures et Deep Code – aux côtés des 25 % de l’Etat français via la Caisse des dépôts (CDC). En attendant, Google affiche toujours une part de marché insolente de 89,45 % en Europe. @

Charles de Laubier

Cyberattaques et IA fantômes : comment encadrer et gérer les risques qui menacent l’entreprise

L’intelligence artificielle générative est un moteur d’accélération des risques pour les entreprises. La révolution de l’IA peut alors tourner au cauchemar. Mais il n’y a pas de fatalité, pour peu que les dirigeants suivent les règlements, les recommandations et les guides de bonnes pratiques.

Par Antoine Gravereaux, avocat associé*, FTPA Avocats

L’intelligence artificielle générative transforme en profondeur les paradigmes de la cybersécurité. En s’appuyant sur des modèles entraînés à partir de volumes de données considérables, cette technologie offre des applications variées dans la défense contre les menaces ou la gestion des attaques cyber. Mais l’IA générative permet également le développement d’usages malveillants, donnant ainsi naissance à une nouvelle vague de cybermenaces. Dans ce contexte, les entreprises doivent concilier innovation et sécurité, tout en respectant un cadre réglementaire européen en pleine évolution.

Cybermenaces externes et internes
Grâce à ses capacités d’automatisation de traitement de données à grande échelle et d’apprentissage autonome, l’IA générative permet aujourd’hui de concevoir des attaques plus efficaces, ciblées et difficile à détecter. Dans le premier rapport international sur la sécurité de l’intelligence artificielle, intitulé « International AI Safety Report » (1) et publié en janvier 2025, les experts soulignent que les menaces cybernétiques se renforcent du fait que l’IA à usage général est favorisée par une exécution rapide, simultanée et à grande échelle d’opérations, tout en abaissant les coûts et les obstacles techniques. Parmi les pratiques, le phishing (hameçonnage) ne cesse de gagner en crédibilité, l’IA permettant de générer de façon automatique tous types de contenus, tels que des deepfakes (hypertrucages) personnalisés.
Les virus polymorphes sont capables de muter leur signature pour échapper aux détections. Ils ont la capacité de modifier leur empreinte numérique pour (suite)

ne pas être repérés par un antivirus. L’empoisonnement des données vient également altérer les prédictions d’un système d’intelligence artificielle s’appuyant sur le machine learning. Les ransomware (rançongiciels) tiennent également toujours une place importante dans l’univers des menaces, bien qu’en baisse depuis ces quatre dernières années. D’autres types d’attaques peuvent aussi permettre de s’emparer de données confidentielles, de perturber le processus de classification des données, ou d’effectuer une ingénierie inversée du modèle afin de le répliquer. Face à l’essor des cyberattaques amplifiées par l’IA générative, le modèle « Zero Trust » – autrement dit « ne faire aucune confiance, toujours vérifier » – s’impose comme une stratégie incontournable pour les entreprises. Ce cadre de sécurité repose sur une surveillance continue, une authentification renforcée et une segmentation stricte des réseaux. En intégrant des outils pilotés par l’IA, le Zero Trust (2) permet d’automatiser la détection des menaces, de prévenir l’exfiltration de données sensibles et de limiter la propagation des attaques au sein des systèmes. Cette approche proactive devient essentielle pour contrer les risques émergents tels que les malwares (logiciels malveillants) évolutifs ou les deepfakes utilisés dans des campagnes de phishing sophistiquées. En intégrant des outils alimentés par l’intelligence artificielle, les entreprises peuvent automatiser la détection des comportements anormaux et accélérer la réponse aux incidents, renforçant ainsi leur résilience face aux attaques générées par l’IA. Cependant, l’usage de l’IA générative par les développeurs informatiques est susceptible d’accroître le risque de failles de sécurité du logiciel et l’exploitation de vulnérabilités par les cyberattaquants des systèmes d’IA.
Selon le laboratoire d’innovation numérique de la Cnil (Linc), il existe trois grandes familles d’attaques de systèmes d’IA : les attaques par manipulation, qui ont pour objectif de contourner les résultats attendus ou d’induire des actions imprévues pour que le système d’IA effectue des tâches inattendues; les attaques par infection qui visent à compromettre la fiabilité des décisions produites par l’IA en compromettant les données utilisées pour l’entraînement du modèle, notamment par des attaques par empoisonnement via des logiciels malveillants ; les attaques par exfiltration qui ont pour objectif l’appropriation des données des systèmes d’IA, portant ainsi atteinte à la confidentialité des informations de l’entreprise et au respect de la vie privée des personnes concernées (3).

IA générative et système d’information
Ainsi, face à ces risques, les entreprises doivent adopter une approche raisonnée dans la mise en œuvre et le déploiement de systèmes d’IA afin de prévenir les atteintes à la sécurité de leurs systèmes d’informations, lesquels font un usage croissant de l’IA générative. Aussi, les entreprises doivent repenser leurs stratégies de cybersécurité. Dans ce contexte, la vérification continue des identités, le contrôle strict des accès et la segmentation fine des réseaux sont des pratiques de nature à limiter le risque. Il est ainsi stratégique pour toute organisation de sécuriser les actifs numériques selon cette approche « risque » dans un environnement marqué par des menaces toujours plus complexes. Le groupe d’experts de haut niveau sur l’IA – l’« AI HLEG » constitué par la Commission européenne en 2018 (4) – décrit sept principes éthiques destinés à rendre l’IA digne de confiance : action humaine et contrôle humain ; robustesse technique et sécurité ; respect de la vie privée et gouvernance des données ; transparence ; diversité, non-discrimination et équité ; bien-être sociétal et environnemental ; et responsabilité.

Encadrement normatif européen renforcé
Le règlement européen sur l’IA – l’AI Act entré en vigueur depuis le 1er août 2024 (5)  – établit des règles harmonisées pour la mise sur le marché et l’utilisation des systèmes d’IA dans l’Union européenne (UE), en mettant en place notamment une obligation de vigilance à la charge des fournisseurs et des déployeurs de systèmes d’IA, tout particulièrement pour les systèmes d’IA à haut risque. Les entreprises doivent ainsi classifier leurs systèmes d’IA et adapter leurs pratiques selon le niveau de risque. Concrètement, elles doivent procéder à une analyse interne en faisant une cartographie de leurs applications, une évaluation des risques spécifiques liés à l’IA envisagée, et des analyses d’impact. Il est nécessaire de mettre en place des mesures de transparence, particulièrement pour les systèmes d’IA générative utilisés pour générer justement ou manipuler des contenus, et de prévoir des explications sur les décisions fondées sur leur système d’IA à haut risque, du fait de leur impact sur les droits des utilisateurs.
En outre, l’AI Act impose que les systèmes d’IA soient encadrés par un processus de gestion des risques planifié, évolutif et mis à jour régulièrement, de la phase d’entraînement jusqu’à son déploiement. Cela vise à garantir une meilleure anticipation des menaces cyber et réduit les risques notamment via une conception sécurisée par défaut (security by design). Cette logique rejoint les exigences du règlement général sur la protection des données (RGPD), de la directive NIS2 en cours de transposition ou du règlement DORA applicable au secteur financier et de l’assurance (6).
Sur le plan humain, le règlement sur l’IA impose de former et de responsabiliser les personnes impliquées. Les entreprises doivent redoubler de vigilance dans la protection de leurs systèmes afin de lutter efficacement contre la compromission de leurs infrastructures d’hébergement de données ou de leur chaîne d’approvisionnement. Au stade de la prévention du risque, la mise en place d’une procédure destinée à évaluer et suivre la conformité en interne des systèmes d’IA est un enjeux clé pour les entreprises. La mise en place de politiques internes destinées à encadrer l’utilisation de l’IA par les salariés, ou encore le contrôle systématique de toute nouvelle application introduite sur le système d’information de l’entreprise, afin d’éradiquer le « shadow AI » (autrement dit l’IA fantôme), sont des facteurs de diminution des risques. La mise en œuvre concrète des exigences réglementaires implique pour les entreprises de prendre en compte les recommandations produites par les régulateurs, sources d’informations précieuses pour anticiper les risques. En France, l’Agence nationale de la sécurité des systèmes d’information (Anssi) a publié le 29 avril 2024 un guide de recommandations de sécurité pour les systèmes d’IA générative (7). Ce guide propose une série de mesures pour sécuriser ces systèmes tout au long de leur cycle de vie, depuis l’entraînement jusqu’à la production. On y trouve ainsi des recommandations générales visant à intégrer la sécurité dès la conception et dans toutes les phases du projet de développement d’un système d’IA, mais également en phases d’entraînement, de déploiement et de production. L’Anssi recommande par exemple de prévoir des audits de sécurité – avant déploiement en production ou encore journaliser – de l’ensemble des traitements réalisés au sein du système d’IA. En février 2025, lors du Sommet de l’IA à Paris, l’Anssi a publié le guide intitulé « Développer la confiance dans l’IA à travers une approche par les risques cyber » (8), où elle élabore des bonnes pratiques pour un déploiement sécurisé des systèmes d’IA, donnant ainsi des orientations à destination des développeurs, des fournisseurs et des décideurs. Outre la mise en place d’un processus de veille technologique et réglementaire, elle recommande de procéder à un contrôle strict des chaînes d’approvisionnement en cartographiant les composants logiciels, en vérifiant la fiabilité des fournisseurs, et en protégeant les données d’entraînement contre l’empoisonnement.
En matière de protection des données personnelles, la Cnil exige de décliner les principes du RGPD aux usages de l’IA. Elle a publié le 7 février 2025 plusieurs recommandations pour la mise en place d’un système d’IA (9), en donnant des bonnes pratiques visant notamment à l’information des personnes concernées qui voient leurs données intégrées dans une base de données d’apprentissage. En outre, la Cnil invite les fournisseurs à anonymiser les données d’entraînement ou, à défaut de pouvoir le faire, à s’assurer que le modèle d’IA est anonyme à l’issu de son entraînement.

Adopter une approche security by design
Lors du Forum InCyber, début avril 2025 à Lille, plusieurs bonnes pratiques ont été mises en avant pour encadrer les risques liés à l’intelligence artificielle. Parmi celles-ci, l’importance de la collaboration entre les acteurs publics et privés a été soulignée pour renforcer la résilience numérique. Le forum a également insisté sur la nécessité d’adopter une approche security by design, intégrant des mécanismes de sécurité dès la conception des systèmes d’IA. Enfin, la formation continue des professionnels et la sensibilisation des utilisateurs ont été identifiées comme des leviers essentiels pour prévenir les cybermenaces et garantir une utilisation éthique et sécurisée de l’intelligence artificielle. @

* Antoine Gravereaux est avocat associé chez FTPA Avocats,
au département « Technologies, Data & Cybersécurité ».

L’enjeu de la base légale et de l’information dans la conformité au RGPD des fournisseurs d’IA

Depuis peu, les fournisseurs de systèmes d’intelligence artificielle (IA) font l’objet d’une attention accrue de la part des autorités de contrôle européennes, lesquelles analysent leur conformité au règlement sur la protection des données (RGPD), de l’information des personnes à la base légale.

Par Sandra Tubert, avocate associée et Alicia Forgues, docteure en droit, Algo Avocats

Après avoir sanctionné OpenAI en décembre 2024 pour ses manquements au RGPD en lien avec son IA générative ChatGPT (1), l’autorité italienne de protection des données – la GPDP (2) – vient cette fois d’ordonner, le 30 janvier dernier (3), le blocage immédiat de l’application et du site web DeepSeek en Italie en raison de manquements présumés au RGPD. Avant d’ordonner la limitation du traitement, la GPDP avait adressé le 28 janvier une demande d’informations à DeepSeek, afin qu’elle précise les données traitées, les finalités poursuivies, leurs bases légales, le lieu de stockage, ainsi que la typologie de données utilisées pour entraîner les modèles d’IA, leurs sources et les modalités d’information des personnes (4).

Modèles d’IA, systèmes d’IA et données
D’autres « Cnil » européennes ont ouvert des enquêtes. Si le recours à l’IA n’impacte pas véritablement les réponses à apporter à certaines de ces questions, les bases légales de traitement et modalités d’information des personnes posent plus de difficultés lorsqu’il s’agit des traitements mis en œuvre dans le cadre de l’entraînement des modèles d’IA. En effet, ces derniers sont entraînés à l’aide d’un grand nombre de données, parmi lesquelles figurent parfois des données personnelles. Celles-ci se divisent en deux catégories : les données fournies directement par des personnes concernées ou les utilisateurs du système d’IA intégrant le modèle d’IA, auxquelles se rajoutent les données collectées durant l’utilisation du service (données first-party) et les données de non-utilisateurs collectées par web scraping ou grâce à la signature de contrats de licences d’utilisation de contenus (données third-party).
Lorsque le fournisseur se contente d’utiliser des données first-party pour entraîner ses modèles d’IA, le contact direct dont il dispose avec les personnes concernées par le traitement lui permet de les informer de manière classique, notamment via une politique de confidentialité – à laquelle il sera renvoyé depuis un formulaire de collecte ou un courriel – qui devra être précise et claire sur les finalités d’entraînement des modèles (notamment en distinguant l’information portant sur l’entraînement des modèles des autres traitements). A l’inverse, s’il utilise également (suite)

des données third-party, le fournisseur fait face à une difficulté, celle d’identifier un moyen approprié pour informer les personnes concernées de l’utilisation de leurs données à des fins d’entraînement des modèles d’IA. Sur ce point, la décision de sanction de 15 millions d’euros rendue en Italie par la GPDP à l’encontre d’OpenAI contient quelques enseignements. Elle y rappelle qu’elle avait, en avril 2023, ordonné à OpenAI un certain nombre de mesures pour se conformer à l’obligation d’information du RGPD. Selon la GPDP, OpenAI devait non seulement publier une mention d’information sur son site Internet explicitant clairement les finalités d’entraînement des modèles, mais aussi mettre à disposition des personnes un outil permettant d’exercer leurs droits (notamment d’opposition). Le fournisseur de ChatGPT devait également et surtout mener une campagne non promotionnelle à la radio, dans les journaux et à la télévision, dont le contenu aurait dû être validé par l’autorité. Objectif : que les utilisateurs et non-utilisateurs soient clairement sensibilisés à l’utilisation de leurs données à des fins d’entraînement des modèles d’IA et aux droits dont ils disposent, afin qu’ils puissent pleinement les exercer. Cette dernière modalité d’information demandée questionne sur les motivations entourant cette mesure (volume de personnes et de données concernées ? méconnaissance de ces traitements par le grand public en 2023 ?). En effet, cette mesure semble difficilement transposable à l’ensemble des acteurs entraînant des modèles d’IA.
En France, la Commission nationale de l’informatique et des libertés (Cnil) propose dans ses fiches IA (5) d’autres pistes pour informer les personnes. Première suggestion : s’appuyer sur le diffuseur des données (celui qui les a collectées initialement auprès des personnes) pour fournir une information complète, étant précisé que la seule mention d’une ré-exploitation par des tiers est insuffisante et qu’il convient, au contraire, d’indiquer que les données seront utilisées afin de développer un système d’IA et d’en désigner nommément le fournisseur.

Exception à l’information individuelle
Deuxième suggestion de la Cnil : rendre les informations disponibles publiquement sur un site web ou panneau d’affichage, sans procéder à une information individuelle, en s’appuyant sur l’exception prévue par le RGPD (à savoir l’information individuelle se révèlerait impossible ou exigerait des efforts disproportionnés (6)). Sur ce point, il conviendra alors de documenter le caractère disproportionné, suite à une mise en balance entre les efforts exigés – comme l’absence de coordonnées des personnes, le nombre de personnes concernées, les coûts de communication – et l’atteinte portée à la vie privée des personnes, notamment le caractère intrusif du traitement. La Cnil précise que l’information générale devra alors indiquer les sources précises utilisées pour constituer la base de données d’entraînement (ou a minima les catégories de sources lorsqu’elles sont trop nombreuses) ainsi que les moyens pour contacter le diffuseur auprès duquel les données ont été récupérées (7).

Intérêt légitime et ses limites : incertitude
Au-delà de l’information, l’entraînement des modèles d’IA questionne sur l’identification de la base légale parmi les six options inscrites dans le RGPD (8). Dans sa décision à l’encontre d’OpenAI, la GPDP a relevé un manquement sur ce point, lui reprochant une réflexion insuffisante sur le sujet, matérialisée par le fait qu’au cours de la procédure, la société a évoqué à la fois l’intérêt légitime et l’exécution du contrat comme base légale de son traitement d’entraînement des modèles d’IA. La GPDP rappelle ainsi aux fournisseurs de systèmes d’IA leur obligation d’identifier la base légale du traitement en amont de la mise en œuvre de ces traitements et de documenter leur analyse si l’intérêt légitime est retenu. Malheureusement, elle n’explore pas plus en profondeur la légitimité de fonder de tels traitements sur l’intérêt légitime ou ses limites, laissant les fournisseurs dans l’incertitude. Or, l’intérêt légitime est la base légale vers laquelle se tournent majoritairement les fournisseurs de système d’IA.
Ceci s’explique principalement par les cas restreints dans lesquels il est possible de fonder les traitements d’entraînement des modèles sur le consentement ou l’exécution du contrat. Cette dernière est souvent rapidement exclue, puisqu’une interprétation stricte en est retenue par les autorités et la CJUE et qu’elle ne peut être utilisée qu’en présence d’un contrat entre le fournisseur du système d’IA et les personnes concernées, pour des traitements objectivement indispensables à l’exécution des obligations prévues par ce contrat. Le consentement peut, quant à lui, être mobilisé par les fournisseurs utilisant des données firstparty, mais n’est pas véritablement disponible pour ceux qui entraînent leurs modèles d’IA avec des données third-party. Dès lors, le recours à l’intérêt légitime pour entraîner des modèles se généralise, même si cette démarche est critiquée, notamment par l’association Noyb (9).
Face à cette incertitude, l’autorité irlandaise (DPC) a émis une demande d’avis auprès du Comité européen de la protection des données (EDPB) en septembre 2024. La DPC souhaitait obtenir des renseignements sur la façon dont un responsable du traitement peut démontrer le bien-fondé de l’intérêt légitime en tant que base légale de traitement pour le développement de modèles d’IA (10). En réponse, l’EDPB a adopté en décembre dernier un avis (11), assez théorique (sans éclaircissements inédits), dans lequel il rappelle et présente les grandes notions et critères à prendre en compte en lien avec les trois conditions cumulatives pour documenter le fait qu’un traitement puisse être fondé sur l’intérêt légitime. L’EDPB y propose néanmoins quelques exemples de mesures souhaitables pour atténuer les risques identifiés lors de la balance des intérêts (pseudonymisation des données d’entraînement, masquage des données personnelles ou leur substitution par des données synthétiques, mise en place d’un délai entre la constitution de la base et l’entrainement des modèles pour permettre l’exercice des droits, …). Pour les données collectées par web scraping, l’EDPB propose des mesures spécifiques (exclure certaines catégories de données ou certaines sources, créer des listes d’opposition gérées par le fournisseur de systèmes d’IA, …). La DPC a salué l’avis rendu, de même que la Cnil, dont les travaux préexistants sur le sujet (qui apportent un éclairage complémentaire et plus concret) ne sont pas contredits (12). En dépit des recommandations figurant dans ces avis, les difficultés liées au recours à l’intérêt légitime dans un contexte d’entraînement des modèles d’IA sont mises en lumière par l’avertissement rendu par la GPDP, le 27 novembre 2024, à l’encontre de l’éditeur de presse Gedi (13). Celui-ci avait conclu un contrat avec OpenAI relatif à la communication d’archives de journaux pour permettre à ce dernier d’entraîner ses modèles d’IA et de mettre à disposition les contenus de presse de Gedi accompagnés d’un résumé, en temps réel, sur ChatGPT (14). En effet, bien que Gedi ait réalisé une analyse d’impact sur la protection des données, dans laquelle il indiquait fonder à la fois ses traitements et ceux d’OpenAI sur l’intérêt légitime, la GPDP a mis en lumière plusieurs difficultés liées à cette position (15).

Affaire « Gedi » : le cas des archives de presse
La première est la présence dans ces archives d’un volume important de données personnelles, notamment sensibles ou relatives à des infractions. L’autorité italienne rappelle alors que la base légale de l’intérêt légitime ne peut pas, à elle seule, légitimer le traitement de telles données sensibles et qu’il est nécessaire d’identifier, en plus, une des exceptions prévues par le RGPD (16). La seconde est relative à l’information des personnes et à leurs attentes raisonnables. La GPDP estime en effet que les personnes dont les données figurent dans ces archives de journaux ne peuvent pas s’attendre à une telle communication à OpenAI et que l’ajout prévu dans la politique de confidentialité de Gedi (non encore publié) s’adresse aux utilisateurs enregistrés de ses journaux et non aux personnes mentionnées dans les articles transmis. @