Les travailleurs fantômes de l’IA : les étiqueteurs de données ne veulent plus être en esclavage

Publié le 1 mai 2026 par Charles de Laubier

Sama est une société américaine à qui Meta, Google ou Microsoft sous-traitent l’étiquetage de quantités de données (images, vidéos, textes, audios, …) pour le bon fonctionnement de leurs IA génératives. En avril 2026, elle a licencié plus de 1.100 d’employés au Kenya. Un métier précaire méconnu.

Sama (ex-Samasource Impact Sourcing) ne vous dit rien. C’est normal. Cette entreprise américaine – dont le siège social est situé dans la Silicon Valley, à San Francisco depuis sa création en 2008 – prospère dans l’ombre des Gafam et plus encore des nouvelles Big Tech de l’IA. Il s’agit d’un sous-traitant majeur dans le numérique et l’intelligence artificielle, qui emploie des milliers d’« étiqueteurs de données » (ou data labelers en anglais). Ce sont les « petites mains » chargées d’étiqueter des milliers, des millions voire des milliards de données brutes (images, textes, vidéos, sons, etc.).

« Histoire conflictuelle » de Sama (Ecofin)
Leur labeur est indispensable pour donner à ces monceaux de données du sens, afin que les modèles de langage des IA puissent les exploiter et répondre aux requêtes de millions d’utilisateurs du monde entier de façon plus pertinente. Ce métier dédié à l’annotation de data s’est développé à vitesse grand-V à travers la planète, notamment en Afrique et en Asie, souvent en exploitant ces travailleurs précaires et mal payés, victimes d’un nouveau « colonialisme numérique », voire d’un nouvel « esclavagisme moderne ». La société Sama que dirige Wendy Gonzalez (photo) se défend, elle, d’exploiter ses salariés et affirme leur accorder salaires décents et avantages sociaux (couverture médicale, congés payés, indemnités maladie, …).
Pour autant, l’entreprise – active principalement en Afrique de l’Est, avec son centre de Nairobi au Kenya comme plaque tournante – a annoncé le 16 avril 2026 le licenciement de 1.108 employés dans la capitale kényane en respectant l’Employment Act de ce pays (1). Et ce, a-t-elle justifié, à la suite de la fin d’un important contrat avec Meta Platforms lié à l’annotation de données pour Meta AI et anciennement à la modération de contenu. Les implantations de Sama en (suite)

Avec les milliards de données de leurs abonnés, les opérateurs télécoms sont des cybercibles de choix

Publié le 19 septembre 2025 par Charles de Laubier

L’été 2025 n’aura pas été de tout repos pour les « telcos ». En France, Bouygues Telecom a été victime début août d’une cyberattaque. Peu avant, fin juillet, Orange a aussi été la cible d’une cyberattaque. L’an dernier, SFR puis Free avaient eux aussi fait l’objet d’une fuite massive de données.

Les quatre opérateurs télécoms français, que sont Orange, Bouygues Telecom, SFR et Free, sont plus que jamais exposés à des cyberattaques de leurs systèmes d’information, où sont gérées et stockées des milliards de données personnelles de leurs plusieurs dizaines de millions d’abonnés mobiles et fixes. Devenus encore plus redoutables et imprévisibles avec l’intelligence artificielle, ces cyberpiratages massifs inquiètent de plus en plus leurs clients.

Données personnelles : open bar ?
Orange compte en France près de 22,1 millions d’abonnés mobiles et plus de 14 millions d’abonnés fixes, et totalise presque 300 millions de clients dans le monde. Bouygues Telecom a, lui, plus de 18 millions d’abonnés mobiles et 5,3 millions d’abonnés fixes, toujours sur l’Hexagone. SFR, c’est 19,3 millions d’abonnés mobiles et 6,1 millions d’abonnés fixes. Quant à Free, il compte en France 15,5 millions d’abonnés mobiles et 7,6 millions d’abonnés fixes, avec un total d’environ 51 millions avec les quelques autres pays où le groupe est présent. Autant dire que les quatre « telcos » français regorgent de données personnelles qui suscitent les convoitises de hackers et cybercriminels désireux de s’en emparer pour demander une rançon et/ou les vendre sur le dark web. Coup sur coup, cet été, Orange puis Bouygues Telecom ont subi une violation de leur système d’information respectif. Or, ce n’est pas la première fois que (suite)

L’explosion des centres de données en Europe pose de sérieux problèmes environnementaux

Publié le 2 mai 2025 par Charles de Laubier

Les centres de données explosent, atteignant près de 10.000 installations dans le monde. La France n’échappe pas à cette demande de data centers pour y faire tourner les intelligences artificielles et les services de cloud. Ces fermes informatiques présentent un risque réel pour l’environnement.

Ils s’appellent Amazon Data Services (AWS), Equinix, OVHcloud, Data4, Telehouse, Digital Realty, Atos, Scaleway, ou encore Microsoft Azure. Ce sont les opérateurs de centres de données, dont le marché français – à l’instar de ce qui se passe dans le monde – explose pour répondre à la forte demande de l’intelligence artificielle et des services de cloud. « On entend par centres de données les installations accueillant des équipements de stockage de données numériques », définit officiellement le code des postes et des communications électroniques (CPCE). Et « on entend par opérateur de centre de données toute personne assurant la mise à la disposition des tiers d’infrastructures et d’équipements hébergés dans des centres de données » (1).

L’Europe va tripler ses centres de données
Cette course frénétique aux data centers engagée partout dans le monde correspond à un marché total dont le chiffre d’affaires est estimé à 452,5 milliards de dollars en 2025, avec une croissance annuelle moyenne de 8,3 % prévue jusqu’en 2029, ce qui devrait générer 624 milliards de dollars cette année-là, d’après une étude de Brightlio (2). Et selon Statista, la France pèserait actuellement 2,7 % de ce marché mondial (3). Des entreprises pratiquant l’informatique en nuage (dans le cloud) aux éditeurs d’IA génératives (ChatGPT, Gemini, Mistral, …), en passant par les producteurs de contenus audiovisuels, la clientèle se bouscule aux portillons.
Se pratique soit la colocation lorsque plusieurs clients installent et gèrent dans des centres de données leur(s) propre(s) réseau(x), serveurs, équipements et services de stockage, soit le co-hébergement lorsque plusieurs clients ont accès à un ou plusieurs réseaux, serveurs et équipements de stockage fournis en tant que service par l’opérateur de centres de données. Et la montée en charge promet (suite)

L’enjeu de la base légale et de l’information dans la conformité au RGPD des fournisseurs d’IA

Publié le 14 février 2025 par Charles de Laubier

Depuis peu, les fournisseurs de systèmes d’intelligence artificielle (IA) font l’objet d’une attention accrue de la part des autorités de contrôle européennes, lesquelles analysent leur conformité au règlement sur la protection des données (RGPD), de l’information des personnes à la base légale.

Par Sandra Tubert, avocate associée et Alicia Forgues, docteure en droit, Algo Avocats

Après avoir sanctionné OpenAI en décembre 2024 pour ses manquements au RGPD en lien avec son IA générative ChatGPT (1), l’autorité italienne de protection des données – la GPDP (2) – vient cette fois d’ordonner, le 30 janvier dernier (3), le blocage immédiat de l’application et du site web DeepSeek en Italie en raison de manquements présumés au RGPD. Avant d’ordonner la limitation du traitement, la GPDP avait adressé le 28 janvier une demande d’informations à DeepSeek, afin qu’elle précise les données traitées, les finalités poursuivies, leurs bases légales, le lieu de stockage, ainsi que la typologie de données utilisées pour entraîner les modèles d’IA, leurs sources et les modalités d’information des personnes (4).

Modèles d’IA, systèmes d’IA et données
D’autres « Cnil » européennes ont ouvert des enquêtes. Si le recours à l’IA n’impacte pas véritablement les réponses à apporter à certaines de ces questions, les bases légales de traitement et modalités d’information des personnes posent plus de difficultés lorsqu’il s’agit des traitements mis en œuvre dans le cadre de l’entraînement des modèles d’IA. En effet, ces derniers sont entraînés à l’aide d’un grand nombre de données, parmi lesquelles figurent parfois des données personnelles. Celles-ci se divisent en deux catégories : les données fournies directement par des personnes concernées ou les utilisateurs du système d’IA intégrant le modèle d’IA, auxquelles se rajoutent les données collectées durant l’utilisation du service (données first-party) et les données de non-utilisateurs collectées par web scraping ou grâce à la signature de contrats de licences d’utilisation de contenus (données third-party).
Lorsque le fournisseur se contente d’utiliser des données first-party pour entraîner ses modèles d’IA, le contact direct dont il dispose avec les personnes concernées par le traitement lui permet de les informer de manière classique, notamment via une politique de confidentialité – à laquelle il sera renvoyé depuis un formulaire de collecte ou un courriel – qui devra être précise et claire sur les finalités d’entraînement des modèles (notamment en distinguant l’information portant sur l’entraînement des modèles des autres traitements). A l’inverse, s’il utilise également (suite)

L’affaire Death Moon rappelle que les hébergeurs doivent retirer « promptement » un contenu illicite

Publié le 14 octobre 2024 par Charles de Laubier

Notes L’auteur de « Death Moon » avait demandé à la justice de condamner la plateforme audio SoundCloud à lui payer environ 6,7 millions d’euros pour contrefaçon de son affiche en partenariat avec la major Universal Music. Mais le statut d’hébergeur « non responsable » lui a finalement été opposé.

Le litige en question : Mathieu Pequignot, un auteur d’oeuvres graphiques – qu’il exploite sous le pseudonyme de Elvisdead (1) et dont il commercialise les tirages par le biais de sa boutique en ligne (2) – contacte le 12 juin 2020 SoundCloud pour lui reprocher une exploitation non autorisée de son oeuvre « Death Moon » à travers des publications mises en ligne (3). La plateforme de streaming musical et audio lui a répondu le même jour que la reproduction avait été fournie par Universal Music et que toute demande devrait être adressée à cette major de la musique enregistrée. Et dans la foulée, SoundCloud a supprimé le contenu et estimé qu’il n’y avait pas à indemniser l’auteur.

6,7 millions d’euros en jeu en 2021
L’auteur de « Death Moon » ne l’a pas entendu de cette oreille et a assigné le 18 décembre 2020 la société SoundCloud – fondée et présidée par Alexander Ljung (photo) – devant le tribunal judiciaire de Marseille pour contrefaçon de droits d’auteur. La société de la plateforme de streaming audio a d’abord contesté le droit à agir de l’auteur de l’affiche intitulée « Death Moon » car celui-ci ne justifiait pas que l’oeuvre, soi-disant contrefaite, était « originale », et, « n’était donc pas investi des droits attribués à l’auteur d’une oeuvre de l’esprit » que prévoit le code de la propriété intellectuelle (CPI). Mais l’auteur a assuré devant le juge en 2021 que l’oeuvre en question était bien originale et qu’il y avait bien contrefaçon de « Death Moon », amenant SoundCloud à ne plus maintenir sa demande de nullité de l’assignation et à reconnaître le plaignant comme étant l’auteur de l’oeuvre « Death Moon ».

Edition Multimédi@

Economie numérique et Nouveaux médias

Archives par mot-clé : Données

Les travailleurs fantômes de l’IA : les étiqueteurs de données ne veulent plus être en esclavage

Avec les milliards de données de leurs abonnés, les opérateurs télécoms sont des cybercibles de choix

L’enjeu de la base légale et de l’information dans la conformité au RGPD des fournisseurs d’IA