Entraînement des IA avec les données personnelles de Facebook et d’Instagram : validation européenne ?

Une décision rendue le 23 mai 2025 par un tribunal de Cologne (OLG Köln), couplée aux échanges préalables avec la « Cnil » irlandaise (DPC) et à la mise en place des mesures proposées par cette dernière, entérine la possibilité pour Meta de lancer son projet d’entraînement des modèles d’IA.

Par Sandra Tubert, avocate associée, et Miguel Piveteau, élève avocat, Algo Avocats

Le groupe Meta Platforms utilise depuis le 27 mai 2025 les données partagées publiquement par les utilisateurs majeurs et les comptes institutionnels sur ses services Facebook et Instagram (1) : publications, photos, vidéos ou encore commentaires (exceptés les messages échangés entre utilisateurs et contenus privés), mais aussi les interactions des utilisateurs avec ses systèmes d’intelligence artificielle (IA) pour entraîner ses grands modèles de langage (LLM) comme Llama.

Décision d’un tribunal de Cologne
A la différence de X (ex-Twitter) (2), Meta a engagé un dialogue constructif avec l’autorité irlandaise de protection des données (DPC). En effet, avant que le grand public ne découvre ce nouveau projet fin mai 2024, Meta avait informé la DPC, au mois de mars 2024, de son souhait d’utiliser les contenus publics de ses utilisateurs européens de Facebook et d’Instagram pour l’entraînement de ses modèles d’IA (3). Meta avait finalement suspendu le projet, le 14 juin 2024 (4), après le dépôt de plusieurs plaintes par l’organisation autrichienne Nyob auprès de onze autorités de contrôle européennes (5) et d’échanges avec la DPC (6), laquelle avait émis des réserves concernant notamment (suite)

Avec leur index web européen EUSP, Qwant et Ecosia veulent s’affranchir de Microsoft et concurrencer Google

Le français Qwant et l’allemand Ecosia ont l’ambition de devenir une alternative européenne au quasimonopole de Google dans les moteurs de recherche, où l’IA rebat les cartes. Leur index web européen EUSP vise l’indépendance par rapport à Bing de Microsoft – accusé de pratique anti-concurrentielle.

Selon nos informations, Qwant livre discrètement depuis le mois d’avril en France des résultats – sur son moteur de recherche – issus de l’index web européen codéveloppé avec son partenaire allemand Ecosia, un autre moteur de recherche alternatif. « Nous avons démarré en avril 2025, en France seulement pour le moment, et nous progressons chaque mois : près d’une requête sur deux est servie depuis notre index européen », indique à Edition Multimédi@ Olivier Abecassis (photo de gauche), directeur général de Qwant.
Cet index web européen, appelé European Search Perspective (EUSP), est développé par la joint-venture European Perspective, société créée à Paris en 2024, détenue à parts égales par Qwant et Ecosia, et présidée par Olivier Abecassis. « Pour l’Allemagne, c’est avant fin 2025, plutôt au quatrième trimestre », nous précise-t-il. Les premiers moteurs de recherche alternatifs à profiter de l’accès en temps réel aux données web les plus à-jour et pertinentes de cet index européen sont non seulement Qwant et Ecosia, mais aussi le français Lilo dont Qwant a finalisé l’acquisition mi-mai. « Ecosia et Lilo utiliseront également l’index EUSP pour servir dans les semaines à venir une partie de leurs requêtes en France », nous indique encore celui qui fut directeur du numérique du groupe TF1 (2016-2022).

Index web pour moteurs alternatifs et agents IA
La joint-venture European Perspective compte lever des capitaux auprès d’investisseurs extérieurs pour assurer son développement sur le long terme et être en capaciter de rivaliser avec Google. L’ambition du tandem franco-allemand : « Renforcer une alternative européenne, éthique et indépendante aux Gafam », mais aussi « plus respectueux de la vie privée » (1). Les résultats de recherche seront d’abord en langues française et allemande, une extension à l’anglais étant prévue, avec l’objectif à plus long terme d’être dans toutes les langues européennes. « Cet index pourra être rejoint par d’autres moteurs de recherche et servir de ressource clé pour l’industrie européenne, par exemple en fournissant un pool de données transparent et sécurisé pour (suite)

Cyberattaques et IA fantômes : comment encadrer et gérer les risques qui menacent l’entreprise

L’intelligence artificielle générative est un moteur d’accélération des risques pour les entreprises. La révolution de l’IA peut alors tourner au cauchemar. Mais il n’y a pas de fatalité, pour peu que les dirigeants suivent les règlements, les recommandations et les guides de bonnes pratiques.

Par Antoine Gravereaux, avocat associé*, FTPA Avocats

L’intelligence artificielle générative transforme en profondeur les paradigmes de la cybersécurité. En s’appuyant sur des modèles entraînés à partir de volumes de données considérables, cette technologie offre des applications variées dans la défense contre les menaces ou la gestion des attaques cyber. Mais l’IA générative permet également le développement d’usages malveillants, donnant ainsi naissance à une nouvelle vague de cybermenaces. Dans ce contexte, les entreprises doivent concilier innovation et sécurité, tout en respectant un cadre réglementaire européen en pleine évolution.

Cybermenaces externes et internes
Grâce à ses capacités d’automatisation de traitement de données à grande échelle et d’apprentissage autonome, l’IA générative permet aujourd’hui de concevoir des attaques plus efficaces, ciblées et difficile à détecter. Dans le premier rapport international sur la sécurité de l’intelligence artificielle, intitulé « International AI Safety Report » (1) et publié en janvier 2025, les experts soulignent que les menaces cybernétiques se renforcent du fait que l’IA à usage général est favorisée par une exécution rapide, simultanée et à grande échelle d’opérations, tout en abaissant les coûts et les obstacles techniques. Parmi les pratiques, le phishing (hameçonnage) ne cesse de gagner en crédibilité, l’IA permettant de générer de façon automatique tous types de contenus, tels que des deepfakes (hypertrucages) personnalisés.
Les virus polymorphes sont capables de muter leur signature pour échapper aux détections. Ils ont la capacité de modifier leur empreinte numérique pour (suite)

L’enjeu de la base légale et de l’information dans la conformité au RGPD des fournisseurs d’IA

Depuis peu, les fournisseurs de systèmes d’intelligence artificielle (IA) font l’objet d’une attention accrue de la part des autorités de contrôle européennes, lesquelles analysent leur conformité au règlement sur la protection des données (RGPD), de l’information des personnes à la base légale.

Par Sandra Tubert, avocate associée et Alicia Forgues, docteure en droit, Algo Avocats

Après avoir sanctionné OpenAI en décembre 2024 pour ses manquements au RGPD en lien avec son IA générative ChatGPT (1), l’autorité italienne de protection des données – la GPDP (2) – vient cette fois d’ordonner, le 30 janvier dernier (3), le blocage immédiat de l’application et du site web DeepSeek en Italie en raison de manquements présumés au RGPD. Avant d’ordonner la limitation du traitement, la GPDP avait adressé le 28 janvier une demande d’informations à DeepSeek, afin qu’elle précise les données traitées, les finalités poursuivies, leurs bases légales, le lieu de stockage, ainsi que la typologie de données utilisées pour entraîner les modèles d’IA, leurs sources et les modalités d’information des personnes (4).

Modèles d’IA, systèmes d’IA et données
D’autres « Cnil » européennes ont ouvert des enquêtes. Si le recours à l’IA n’impacte pas véritablement les réponses à apporter à certaines de ces questions, les bases légales de traitement et modalités d’information des personnes posent plus de difficultés lorsqu’il s’agit des traitements mis en œuvre dans le cadre de l’entraînement des modèles d’IA. En effet, ces derniers sont entraînés à l’aide d’un grand nombre de données, parmi lesquelles figurent parfois des données personnelles. Celles-ci se divisent en deux catégories : les données fournies directement par des personnes concernées ou les utilisateurs du système d’IA intégrant le modèle d’IA, auxquelles se rajoutent les données collectées durant l’utilisation du service (données first-party) et les données de non-utilisateurs collectées par web scraping ou grâce à la signature de contrats de licences d’utilisation de contenus (données third-party).
Lorsque le fournisseur se contente d’utiliser des données first-party pour entraîner ses modèles d’IA, le contact direct dont il dispose avec les personnes concernées par le traitement lui permet de les informer de manière classique, notamment via une politique de confidentialité – à laquelle il sera renvoyé depuis un formulaire de collecte ou un courriel – qui devra être précise et claire sur les finalités d’entraînement des modèles (notamment en distinguant l’information portant sur l’entraînement des modèles des autres traitements). A l’inverse, s’il utilise également (suite)

« Résumé suffisamment détaillé » : 2025 sera l’année de vérité dans la mise en œuvre de l’AI Act

Le rapport du CSPLA sur la mise en œuvre du règlement européen établissant des règles harmonisées sur l’IA fournit les ingrédients mais… pas la recette ! Le Bureau européen de l’IA, créé par l’AI Act, doit publier prochainement un « modèle européen » à suivre par les Vingt-sept.

Par Anne-Marie Pecoraro*, avocate associée, UGGC Avocats

Le rapport « IA et Transparence des données d’entraînement » (1), publié le 11 décembre 2024 par le Conseil supérieur de la propriété littéraire et artistique (CSPLA), s’inscrit dans la préparation de la mise en œuvre du règlement européen sur l’intelligence artificielle (AI Act) et a pour objectif de clarifier l’interprétation et la portée des dispositions imposant un modèle de « résumé suffisamment détaillé » (2). Ce modèle sera présenté au nom de la France dans le cadre du processus d’adoption d’un modèle européen par le Bureau européen de l’IA (AI Office), autorité créée par l’AI Act et chargée d’accompagner les fournisseurs d’IA dans leur mise en conformité. La publication du modèle européen est attendue pour janvier 2025.

Transparence des données d’entraînement
La collecte de données de qualité, notamment de données culturelles, est d’une importance stratégique pour les fournisseurs d’IA, puisque les systèmes d’IA ont besoin d’ingurgiter de grandes quantités de données, leur servant de modèles dans leurs productions. Or, des données contenant des créations protégées par un droit de propriété intellectuelle peuvent avoir été obtenues sans autorisation ou sans tenir compte d’un « opt-out », et avoir été effectivement exploitées. Il en va de même concernant des données personnelles (posts Facebook, Instagram, …) potentiellement utilisées pour l’entraînement de modèles d’IA. L’enjeu est alors d’avoir accès à l’information sur les données d’entraînement utilisées par une IA, pour bien des raisons et notamment ouvrir une visibilité aux ayants droits dont des données et/ou créations auraient été mobilisées, quelles qu’en soient les modalités.
Pour ce faire, les fournisseurs d’IA sont désormais soumis à une obligation de transparence qui se concrétise par la mise en place d’une politique de conformité, ainsi que par la mise à disposition au public d’un « résumé suffisamment détaillé » (sufficiently detailed summary) des contenus utilisés pour l’entraînement du modèle d’IA. Ce résumé permet le développement d’une IA de confiance souhaitée au niveau européen (3), en remédiant aux difficultés rencontrées par les titulaires de droits, confrontés à une charge de la preuve disproportionnée concernant l’utilisation de leurs contenus. Pour autant, le résumé doit répondre aux enjeux de la création d’un marché dynamique et équitable de l’IA. Ce qui impose un compromis pour restreindre la quantité d’informations mise à disposition afin de protéger le secret des affaires, moteur d’innovation pour les fournisseurs d’intelligence artificielle. (suite)