Les travailleurs fantômes de l’IA : les étiqueteurs de données ne veulent plus être en esclavage

Sama est une société américaine à qui Meta, Google ou Microsoft sous-traitent l’étiquetage de quantités de données (images, vidéos, textes, audios, …) pour le bon fonctionnement de leurs IA génératives. En avril 2026, elle a licencié plus de 1.100 d’employés au Kenya. Un métier précaire méconnu.

Sama (ex-Samasource Impact Sourcing) ne vous dit rien. C’est normal. Cette entreprise américaine – dont le siège social est situé dans la Silicon Valley, à San Francisco depuis sa création en 2008 – prospère dans l’ombre des Gafam et plus encore des nouvelles Big Tech de l’IA. Il s’agit d’un sous-traitant majeur dans le numérique et l’intelligence artificielle, qui emploie des milliers d’« étiqueteurs de données » (ou data labelers en anglais). Ce sont les « petites mains » chargées d’étiqueter des milliers, des millions voire des milliards de données brutes (images, textes, vidéos, sons, etc.).

« Histoire conflictuelle » de Sama (Ecofin)
Leur labeur est indispensable pour donner à ces monceaux de données du sens, afin que les modèles de langage des IA puissent les exploiter et répondre aux requêtes de millions d’utilisateurs du monde entier de façon plus pertinente. Ce métier dédié à l’annotation de data s’est développé à vitesse grand-V à travers la planète, notamment en Afrique et en Asie, souvent en exploitant ces travailleurs précaires et mal payés, victimes d’un nouveau « colonialisme numérique », voire d’un nouvel « esclavagisme moderne ». La société Sama que dirige Wendy Gonzalez (photo) se défend, elle, d’exploiter ses salariés et affirme leur accorder salaires décents et avantages sociaux (couverture médicale, congés payés, indemnités maladie, …).
Pour autant, l’entreprise – active principalement en Afrique de l’Est, avec son centre de Nairobi au Kenya comme plaque tournante – a annoncé le 16 avril 2026 le licenciement de 1.108 employés dans la capitale kényane en respectant l’Employment Act de ce pays (1). Et ce, a-t-elle justifié, à la suite de la fin d’un important contrat avec Meta Platforms lié à l’annotation de données pour Meta AI et anciennement à la modération de contenu. Les implantations de Sama en (suite)

Copyright & GenAI : la résolution des eurodéputés adoucit la « présomption » en faveur de l’innovation

Depuis que les eurodéputés ont adopté, en séance plénière le 10 mars 2026, une résolution sur le droit d’auteur et l’intelligence artificielle générative, texte qui n’a pas de caractère contraignant, la balle est dans le camp de la Commission européenne pour qu’elle clarifie les règles du jeu.

Le texte sur le copyright et l’IA adopté le 10 mars 2026 à Strasbourg par le Parlement européen – intitulé « Résolution sur le droit d’auteur et l’intelligence artificielle générative – opportunités et défis » (1) – posent des principes mais ne résout pas à ce stade les relations compliquées entre l’innovation qu’est l’IA et le copyright. D’autant que cette résolution politique issue du rapport de l’eurodéputé Axel Voss (photo) est non contraignante, le rapport lui-même dit « d’initiative » (du Parlement européen) étant non législatif, et n’a pas vocation à être publié au Journal Officiel de l’Union européenne (JOUE).

Les « ambiguïtés » de la directive « Copyright »
Il faudra attendre que la Commission européenne suive éventuellement les recommandations de cette résolution « Copyright & GenAI », notamment dans le cadre de la révision de la directive « Droit d’auteur et droits voisins dans le marché unique numérique » de 2019, dite « Copyright » (2), voire dans de futures lignes directrices sur l’entraînement des IA, pour que de nouvelles clarifications soient publiées au JOUE après adoption par le Parlement européen. Or il est justement prévu dans cette directive « Copyright » que la Commission européenne doit procéder – « au plus tôt le 7 juin 2026 » – au réexamen de la présente directive et présente un rapport exposant ses principales conclusions au Parlement européen, au Conseil de l’UE et au Comité économique et social européen.
C’est dire que cette perspective devient (suite)

DeepSeek fête ses un an et pourrait profiter de la Fête des Lanternes pour lancer sa V4

Le « ChatGPT » chinois DeepSeek, qui avait secoué les IA américaines après son lancement low cost et frugale il y a un an, va lancer la version 4 de son modèle d’IA open source. L’Empire du Milieu et l’Occident sont ses terrains de jeu. Son fondateur Liang Wenfeng fait frémir Sam Altman (OpenAI).

En Chine, avec ou sans intelligence artificielle, le Nouvel An lunaire donnant le coup d’envoi de la Fête du Printemps se célèbre – cette année 2026 – du 17 février au 3 mars, le dernier jour des festivités étant la Fête des Lanternes, connue aussi pour ses boulettes de riz gluantes (tuanyuan). Pour marquer les un an de son IA générative DeepSeek, dont la « R1 » avait été lancée massivement et mondialement le 20 janvier 2025 (1), la société éditrice Hangzhou DeepSeek AI (2), fondée par son PDG Liang Wenfeng (photo), pourrait dégainer son modèle V4 d’ici au 3 mars.

Les « sino-AI » se sont multipliées
Les administrations « Trump I », « Biden » et « Trump II » ont eu beau restreindre les exportations de puces IA américaines les plus avancées, dont les GPU (3) de Nvidia, cela n’a pas empêché des rivaux chinois des ChatGPT d’OpenAI, Gemini de Google et autres Claude d’Anthropic de relever le défi des IA génératives entraînées sur de grands modèles de langage (LLM) performants. Un an après le lancement de la première version de DeepSeek par la société de Hangzhou (capitale de la province du Zhejiang, dans l’Est de la Chine), les « sino-AI » se sont multipliées pour conquérir le monde : Qwen d’Alibaba, Doubao de ByteDance, Hunyuan de Tencent, Ernie de Baidu, M de MiniMax, Kimi de Moonshot AI, Spark d’Iflytek, Ziyue de Netease Youdao, DM0 de Dexmal, ou encore GLM de Zhipu AI.
Publiée en janvier 2026, une étude de l’organisation américaine à but non lucratif Research and Development (Rand) – émancipée de l’US Air Force depuis 1948 mais toujours financé en grande partie par le gouvernement fédéral américain – constate que (suite)

Le moteur de recherche Qwant, « dont vous êtes l’utilisateur, pas le produit ! », joue la transparence

Basé en France, Qwant revendique être « l’un des premiers moteurs de recherche indépendants en Europe » et assure ne pas conserver les données de recherche ni les vendre. Son PDG, Olivier Abecassis, se veut transparent, y compris vis-à-vis de l’Arcom dans le cadre du DSA.

L’Arcom (1) a indiqué le 12 janvier qu’elle avait été « dans l’incapacité de trouver un rapport de transparence RSN [en référence au règlement européen sur les services numériques, ou DSA, ndlr] » pour au moins une douzaine de plateformes de « services intermédiaires » qu’elle doit superviser en France, parmi lesquels Qwant. Pourtant, le Digital Services Act (2) leur impose des obligations en matière de rapports de transparence qu’ils doivent mettre « à la disposition du public […] au moins une fois par an […] sur les éventuelles activités de modération des contenus auxquelles ils se sont livrés au cours de la période concernée » (3) : injonctions reçues, activités de modération, réclamations reçues, moyens automatisés utilisés, …

DSA : des obligations de transparence
Contacté par Edition Multimédi@ sur cette absence de rapport de transparence qu’a pointée le régulateur (4), le PDG de Qwant, Olivier Abecassis (photo), nous apporte l’explication suivante : « En effet, notre rapport était rédigé mais n’était pas en ligne, ce qui a été fait dès que l’Arcom nous l’a rappelé ». Le premier rapport de transparence du moteur de recherche français a donc finalement été publié le 14 janvier sur le site web de l’entreprise basée à Paris (5). Tenant sur une page, ce document fait état d’une (suite)

Premier jugement historique en Europe condamnant OpenAI pour atteinte au droit d’auteur

Même si ce jugement historique du 11 novembre 2025 – prononcé par le tribunal de Munich contre de l’éditeur américain de ChatGPT accusé de contrefaçon musicale – est provisoire (OpenAI ayant fait appel), il sonne comme un avertissement planétaire à toutes les sociétés d’IA génératives.

Tobias Holzmüller (photo), le PDG de la Gema, qui est en Allemagne ce que la Sacem est en France, peut être fier du verdict historique obtenu en première instance du tribunal régional de Munich le 11 novembre 2025 : la manière dont OpenAI gère actuellement ChatGPT viole les lois européennes applicables sur le droit d’auteur. « Pour la première fois en Europe, l’argument en faveur de l’utilisation par les systèmes d’IA générative d’œuvres protégées par le droit d’auteur a été examiné juridiquement et statué en faveur des créateurs des œuvres », s’est félicitée la Société pour les droits d’exécution musicale et de reproduction mécanique (Gema).

Copyright : Internet n’est pas open bar
Cette décision judiciaire allemande – première de ce type dans l’Union européenne (UE) et au retentissement mondial – a clairement jugé que la licorne américaine OpenAI aurait dû acquérir les droits sur les paroles des paroliers et auteurs-compositeurs du répertoire de la Gema, avant de les utiliser pour entraîner ses modèles d’IA et de les exploiter avec son chatbot ChatGPT. De telles reproductions sans autorisations constituent aux yeux du tribunal de Munich des violations du droit d’auteur, et pour lesquelles OpenAI aurait dû obtenir une licence qui offre aux titulaires des droits une rémunération appropriée.
C’est la première fois dans l’UE qu’une décision clarifie aujourd’hui des questions juridiques-clés concernant la manière dont les nouvelles technologies interagissent avec le copyright européen. « Internet n’est pas une sorte de buffet en libre-service, et les réalisations créatives des êtres humains ne sont pas simplement des modèles à utiliser gratuitement. Aujourd’hui, nous avons établi un précédent qui protège et clarifie les droits des détenteurs de droits d’auteur créatifs : les opérateurs d’outils d’IA tels que ChatGPT doivent (suite)