Entraînement des IA avec les données personnelles de Facebook et d’Instagram : validation européenne ?

Une décision rendue le 23 mai 2025 par un tribunal de Cologne (OLG Köln), couplée aux échanges préalables avec la « Cnil » irlandaise (DPC) et à la mise en place des mesures proposées par cette dernière, entérine la possibilité pour Meta de lancer son projet d’entraînement des modèles d’IA.

Par Sandra Tubert, avocate associée, et Miguel Piveteau, élève avocat, Algo Avocats

Le groupe Meta Platforms utilise depuis le 27 mai 2025 les données partagées publiquement par les utilisateurs majeurs et les comptes institutionnels sur ses services Facebook et Instagram (1) : publications, photos, vidéos ou encore commentaires (exceptés les messages échangés entre utilisateurs et contenus privés), mais aussi les interactions des utilisateurs avec ses systèmes d’intelligence artificielle (IA) pour entraîner ses grands modèles de langage (LLM) comme Llama.

Décision d’un tribunal de Cologne
A la différence de X (ex-Twitter) (2), Meta a engagé un dialogue constructif avec l’autorité irlandaise de protection des données (DPC). En effet, avant que le grand public ne découvre ce nouveau projet fin mai 2024, Meta avait informé la DPC, au mois de mars 2024, de son souhait d’utiliser les contenus publics de ses utilisateurs européens de Facebook et d’Instagram pour l’entraînement de ses modèles d’IA (3). Meta avait finalement suspendu le projet, le 14 juin 2024 (4), après le dépôt de plusieurs plaintes par l’organisation autrichienne Nyob auprès de onze autorités de contrôle européennes (5) et d’échanges avec la DPC (6), laquelle avait émis des réserves concernant notamment (suite)

L’enjeu de la base légale et de l’information dans la conformité au RGPD des fournisseurs d’IA

Depuis peu, les fournisseurs de systèmes d’intelligence artificielle (IA) font l’objet d’une attention accrue de la part des autorités de contrôle européennes, lesquelles analysent leur conformité au règlement sur la protection des données (RGPD), de l’information des personnes à la base légale.

Par Sandra Tubert, avocate associée et Alicia Forgues, docteure en droit, Algo Avocats

Après avoir sanctionné OpenAI en décembre 2024 pour ses manquements au RGPD en lien avec son IA générative ChatGPT (1), l’autorité italienne de protection des données – la GPDP (2) – vient cette fois d’ordonner, le 30 janvier dernier (3), le blocage immédiat de l’application et du site web DeepSeek en Italie en raison de manquements présumés au RGPD. Avant d’ordonner la limitation du traitement, la GPDP avait adressé le 28 janvier une demande d’informations à DeepSeek, afin qu’elle précise les données traitées, les finalités poursuivies, leurs bases légales, le lieu de stockage, ainsi que la typologie de données utilisées pour entraîner les modèles d’IA, leurs sources et les modalités d’information des personnes (4).

Modèles d’IA, systèmes d’IA et données
D’autres « Cnil » européennes ont ouvert des enquêtes. Si le recours à l’IA n’impacte pas véritablement les réponses à apporter à certaines de ces questions, les bases légales de traitement et modalités d’information des personnes posent plus de difficultés lorsqu’il s’agit des traitements mis en œuvre dans le cadre de l’entraînement des modèles d’IA. En effet, ces derniers sont entraînés à l’aide d’un grand nombre de données, parmi lesquelles figurent parfois des données personnelles. Celles-ci se divisent en deux catégories : les données fournies directement par des personnes concernées ou les utilisateurs du système d’IA intégrant le modèle d’IA, auxquelles se rajoutent les données collectées durant l’utilisation du service (données first-party) et les données de non-utilisateurs collectées par web scraping ou grâce à la signature de contrats de licences d’utilisation de contenus (données third-party).
Lorsque le fournisseur se contente d’utiliser des données first-party pour entraîner ses modèles d’IA, le contact direct dont il dispose avec les personnes concernées par le traitement lui permet de les informer de manière classique, notamment via une politique de confidentialité – à laquelle il sera renvoyé depuis un formulaire de collecte ou un courriel – qui devra être précise et claire sur les finalités d’entraînement des modèles (notamment en distinguant l’information portant sur l’entraînement des modèles des autres traitements). A l’inverse, s’il utilise également (suite)