DeepSeek fête ses un an et pourrait profiter de la Fête des Lanternes pour lancer sa V4

Le « ChatGPT » chinois DeepSeek, qui avait secoué les IA américaines après son lancement low cost et frugale il y a un an, va lancer la version 4 de son modèle d’IA open source. L’Empire du Milieu et l’Occident sont ses terrains de jeu. Son fondateur Liang Wenfeng fait frémir Sam Altman (OpenAI).

En Chine, avec ou sans intelligence artificielle, le Nouvel An lunaire donnant le coup d’envoi de la Fête du Printemps se célèbre – cette année 2026 – du 17 février au 3 mars, le dernier jour des festivités étant la Fête des Lanternes, connue aussi pour ses boulettes de riz gluantes (tuanyuan). Pour marquer les un an de son IA générative DeepSeek, dont la « R1 » avait été lancée massivement et mondialement le 20 janvier 2025 (1), la société éditrice Hangzhou DeepSeek AI (2), fondée par son PDG Liang Wenfeng (photo), pourrait dégainer son modèle V4 d’ici au 3 mars.

Les « sino-AI » se sont multipliées
Les administrations « Trump I », « Biden » et « Trump II » ont eu beau restreindre les exportations de puces IA américaines les plus avancées, dont les GPU (3) de Nvidia, cela n’a pas empêché des rivaux chinois des ChatGPT d’OpenAI, Gemini de Google et autres Claude d’Anthropic de relever le défi des IA génératives entraînées sur de grands modèles de langage (LLM) performants. Un an après le lancement de la première version de DeepSeek par la société de Hangzhou (capitale de la province du Zhejiang, dans l’Est de la Chine), les « sino-AI » se sont multipliées pour conquérir le monde : Qwen d’Alibaba, Doubao de ByteDance, Hunyuan de Tencent, Ernie de Baidu, M de MiniMax, Kimi de Moonshot AI, Spark d’Iflytek, Ziyue de Netease Youdao, DM0 de Dexmal, ou encore GLM de Zhipu AI.
Publiée en janvier 2026, une étude de l’organisation américaine à but non lucratif Research and Development (Rand) – émancipée de l’US Air Force depuis 1948 mais toujours financé en grande partie par le gouvernement fédéral américain – constate que (suite) « les modèles chinois coûtent entre un sixième et un quart du prix des rivaux américains ». Mais cette étude pro-américaine (4) fait l’impasse sur la sobriété énergétique des IA chinoises qui ont un avantage sur leurs concurrents américains énergivores. De plus, DeepSeek s’est d’emblée démarqué de ses rivaux américains en étant open source. Bien qu’il ne soit pas le seul à être libre (5), son IA low cost et low energy – du moins jusqu’alors dans sa version V3.2 – est en pole position dans les catégories de raisonnement avancé, d’efficacité/coût, de mathématiques/coding et d’adoption massive sur des plateformes d’hébergement et de téléchargement telles que Hugging Face (6), Ollama ou GitHub. DeepSeek surpasse parfois GPT-5 ou Gemini 3.0 Pro sur des tâches spécifiques. Cette ouverture du chinois attire développeurs et entreprises, favorisant l’adoption rapide de DeepSeek, y compris en France (7). « La part de marché mondiale des LLM chinois est passée de [moins de] 3 % à [plus de] 13 % en deux mois [entre décembre 2024 et février 2025, ndlr], principalement portée par DeepSeek, alors même que le trafic des sites web des LLM américains a continué d’augmenter régulièrement durant cette période », relève l’étude de Rand. La ville de Hangzhou, où se situe aussi le siège mondial du géant chinois Alibaba, n’a rien à envier à la Silicon Valley et est devenu une plaque tournante de l’IA mondiale. Avec sa V4 – entraînée malgré l’embargo sur des puces IA Nvidia, d’après Reuters le 24 février (8) –, DeepSeek entend ne pas se faire distancer au niveau mondial. D’autant que s’endormir sur ses lauriers serait laisser la part belle aux autres LLM ouverts dits « open-weight » (« poids du modèle » téléchargeable) que sont, par exemple, les modèles Llama de Meta, populaire chez les développeurs, Gemma de Google ou encore Large, Ministral, Devstral et Magistral du français Mistral AI.
La société Hangzhou DeepSeek AI, privée et principalement financée par le fonds High-Flyer Quant (fonds spéculatifs, ou hedge fund, piloté par l’IA) appartenant à Liang Wenfeng, se concentre pour l’instant sur la recherche fondamentale (R&D), plutôt que sur la réalisation d’un chiffre d’affaires : non divulgué, celui-ci ne dépasserait pas les 50 millions de dollars en 2025 selon les spéculations (9). Reste à savoir aussi combien de temps le PDG de DeepSeek résistera aux sirènes de la Bourse.

Liang Wenfeng s’apprête à sortir une AGI
Dans une rare interview, accordée à 36Kr (le « TechCrunch » chinois) en juillet 2024 (10), soit trois après la sortie de la V2 de DeepSeek et six mois avant le lancement mondial de sa R1 bien plus puissante, Liang Wenfeng a dévoilé ses ambitions : « La chose la plus importante est de faire partie de cette vague mondiale d’innovation. […] Les API et l’IA devraient être abordables et accessibles à tous. […] Mais notre l’objectif est l’AGI [Artificial General Intelligence, capable de surpasser les humains, ndlr]. Cela peut être dans deux ans, cinq ans ou dix ans […] OpenAI n’est pas une entité toute-puissante qui peut toujours être en première ligne ». DeepSeek s’inscrit dans le temps long. @

Charles de Laubier

Le Français Yann LeCun (ne) retournera (pas) en France

En fait. Le 9 décembre marquera l’anniversaire des 12 ans du Français Yann LeCun chez Facebook (devenu Meta), jour où il a été nommé directeur du laboratoire de R&D en intelligence artificielle (FAIR), tout juste crée. Le 31 décembre 2025, le « frenchie » quittera Meta pour créer sa start-up.

En clair. « Je prévois de quitter Meta après 12 ans : 5 ans en tant que directeur fondateur de FAIR [Facebook AI Research] et 7 ans en tant que scientifique en chef de l’IA [Chief AI Scientist]. Je crée une start-up pour poursuivre le programme de recherche en intelligence machine avancée (AMI) que j’ai engagé depuis plusieurs années avec des collègues de FAIR, de NYU [New York University] et au-delà », a annoncé le 20 novembre le Français Yann LeCun, sur son compte LinkedIn (1).
Il veut aller au-delà des LLM (Large Language Model), qui ont atteint leurs limites, pour passer à ce qu’il appelle « la prochaine grande révolution dans l’IA » : les Advanced Machine Intelligence (AMI), « des systèmes qui comprennent le monde physique, possèdent une mémoire persistante, savent raisonner et planifient des séquences d’actions complexes ». Mais le « frenchie » (65 ans) ne quitte pas New York pour autant ni ne va servir la France dans sa quête de souveraineté numérique. Yann LeCun a indiqué qu’il (suite) va non seulement lancer sa start-up « AMI » en collaboration avec des collègues du labo FAIR et de l’Université de New York où il enseigne depuis 2003, mais aussi rester proche de la firme de Mark Zuckerberg. « Meta sera partenaire de la nouvelle société », a précisé l’informaticien diplômé de l’Esiee Paris (1983) et de l’Université Pierre et Marie Curie (1987), et devenu spécialiste mondial des neurosciences et du deep learning. Comprenez : l’ex-groupe Facebook sera l’un des investisseurs de sa start-up. « L’AMI aura des applications de grande envergure dans de nombreux secteurs de l’économie, dont certains recoupent les intérêts commerciaux de Meta, mais beaucoup non », a-t-il aussi indiqué, alors qu’il reste salarié de Meta jusqu’au 31 décembre 2025.
Concernant le labo FAIR, devenu Fundamental AI Research lorsque le groupe a été rebaptisé Meta Platforms en octobre 2021, il réduit la voilure d’environ 600 postes, selon CNBC (2), pour passer sous les 3.000 employés, lesquels sont répartis dans différentes implantations : New York, Menlo Park, Londres, Montréal et Paris. Les bureaux de FAIR Paris (3), installés il y a 10 ans, sont aussi impactés en proportion par rapport à plus d’une centaine de chercheurs. Le départ de Yann LeCun s’explique par la décision de « Zuck » d’investir plus sur la commercialisation de l’IA, comme son modèle Llama (4), au détriment de la recherche fondamentale. @

Tout le monde pourra devenir développeur d’applications sans coder, grâce aux « IA codeuses »

Fini les geeks qui se retrouvent seuls à écrire des lignes de codes pour développer – « from scratch » (à partir d’une feuille blanche) – des programmes ou des applications. Les développeurs informatiques sont une espèce en voie de disparition. A terme, tout le monde pourra programmer sans coder.

Imaginez un monde numérique dans lequel tout un chacun pourra créer son application mobile ou ses programmes informatiques, sans connaître le codage ni même avoir entendu parler de langages de programmation tels que les Python, C++ et autres Java. Dans ce futur, pas si lointain, n’importe qui pourra concevoir son logiciel ou son application en fonction de ses besoins ou inventer son jeu vidéo à lui, pour se divertir. Et ce, sans écrire la moindre ligne de code ni faire appel à un programmeur professionnel.

De l’autocomplétion passive à l’agentique actif
Votre rêve pourrait rapidement devenir réalité grâce à la déferlante en cours des « IA codeuses », ces intelligences artificielles agentiques capables de coder à votre place en fonction du logiciel, de l’application ou du jeu vidéo que vous souhaitez. Les grands modèles de langage (LLM) dernière génération – Gemini 3 de Google, GPT 5 d’OpenAI, Claude 4.5 d’Anthropic, Large de Mistral AI ou encore Grok 4 de xAI – ont donné naissance à agents codeurs qui génèrent euxmêmes du code, le testent et en assurent sa maintenance. Par exemple, si l’on reprend nos précédents LLM (1), ces IA codeuses s’appellent Antigravity (lancée le 18 novembre 2025), GPT 5.1 High (lancée par OpenAI le 12 novembre), Claude Code (lancée largement le 22 mai), Codestral (lancée par Mistral AI le 29 janvier) ou encore Grok Thinking (lancé par xAI le 17 novembre). L’année 2025 marque donc un tournant et une accélération sur le nouveau marché mondial des IA codeuses, où l’on retrouve bien d’autres concurrents tels que GitHub Copilot (Microsoft), Cursor (Anysphere), Qwen3-Max (Alibaba), Replit Agent (Replit), …
A ce train-là, l’intelligence artificielle (suite) pourrait générer à terme la quasi-totalité des milliards de milliards de lignes de code nécessaires au fonctionnement de nos mondes numériques. Google, qui a présenté le 18 novembre 2025 Antigravity, parle pour le moment d’« une nouvelle ère dans le développement de logiciels assistés par l’IA ». Les développeurs du monde entier – communément appelés les « devs » – connaissent depuis bien longtemps les environnements de développement intégré (ou IDE, pour Integrated Development Environment). Il s’agit d’un logiciel de programmation composé d’au moins un éditeur de code source, d’outils d’automatisation de compilation et d’un débogage, lorsqu’il n’inclut pas aussi de concepteur d’interface graphique utilisateur (GUI), d’un navigateur d’objets (composants-logiciels) ou encore de diagramme de classes (pour la modélisation orientée objet). Mais avec les IA codeuses, l’IDE change de dimension ou, plus précisément, laisse place à une « nouvelle plateforme de développement agentique ». Le fait nouveau est que cette nouvelle génération d’outils intégrés pour le codage n’est plus réservée aux seuls développeurs, mais elle s’adresse in fine à tous. « Nous voulons qu’Antigravity soit la base du développement logiciel à l’ère des agents. Notre vision est de permettre à toute personne, ayant une idée, de vivre le décollage et de la concrétiser », indique Google qui, via sa filiale Google DeepMind dirigée par Demis Hassabis (2), rend Antigravity disponible « en avant-première publique gratuitement, avec des limites tarifaires généreuses sur l’utilisation de Gemini 3 Pro » (3).
D’ailleurs, la filiale d’Alphabet parle de « développement » mais n’utilise pas le thème « développeur »… C’est révélateur. La révolution dans le développement réside dans le passage d’un mode passif d’autocomplétion – où l’IA codeuse se comportait comme un assistant de suggestion dans l’écriture de la suite d’une ligne de code ou de snippets (morceaux de code) – à un mode actif agentique autonome capable de coder de bout-en-bout, en planifiant des tâches complexes, d’exécuter plusieurs étapes de codage sans intervention humaine : écrire les lignes de code, générer des tests, configurer un pipeline, corriger et refactoriser du code existant, interagir avec d’autres outils, …
Les IA codeuses, désormais proactives, peuvent comprendre les objectifs globaux de l’utilisateur – qui n’est plus forcément un développeur – et orchestrer plusieurs étapes, au lieu de se limiter à compléter du code, ligne par ligne. Et cela change tout.

Les IA codeuses from scratch et full stack
Fini les développeurs « from scratch », c’est-à-dire ceux qui partent de zéro (ou d’une page blanche) sans réutiliser de code ou de composants préexistants. Les « devs », qui deviennent des architectes et superviseurs d’IA codeuses plutôt que des « scribes du code », verront leur productivité décupler, voire centupler si ce n’est… milleupler. Les IA codeuses accélèrent et automatisent les développements – jusqu’à donner l’impression d’avoir une compréhension profonde des systèmes. Elles fournissent non seulement ce que l’on appelle chez les devs le framework (ou « cadriciel » en français), à savoir un ensemble cohérent de composants logiciels (bibliothèques, outils, conventions) servant de socle pour construire une application, mais elles peuvent surtout procéder au codage de l’ensemble. L’IA codeuse peut même être « full stack » comme un développeur professionnel peut l’être, autrement dit à même de développer un logiciel, une application ou un site web à la fois en front-end (développement de l’interface graphique utilisateur), en back-end (gestion et traitement des données en coulisses), database comprise (base de données).

Low-code, no-code, vibe coding et IA codeuses
A terme, tout le monde pourra donc potentiellement créer sa propre application, sans générer aucune ligne de code. Les techniques de programmation dites « low-code » (avec un peu de code à écrire) et « no-code » (sans aucune ligne de code à écrire) ont préparé les esprits à du développement sans codage ou peu. Mais dans les deux cas, il faut que l’utilisateur passe par une interface graphique ou visuelle telle que : Bubble, Webflow, Zapier ou Make pour le no-code (s’adressant aux non-développeurs) ; OutSystems, Mendix, Appian ou Power Apps pour le low-code (destinés aux développeurs) ; Salesforce Lightning, ServiceNow App Engine ou Microsoft Power Apps (hybrides pour développeurs ou non).
« Le no-code est conçu pour les utilisateurs non techniques. Il permet de créer des applications via des interfaces visuelles, sans écrire une seule ligne de code. C’est idéal pour des tâches simples comme des formulaires, des tableaux de bord ou des automatisations de base, souvent utilisées par les équipes métiers. Le low-code, quant à lui, combine des éléments visuels avec la possibilité d’écrire un peu de code. Il est plus flexible et puissant, permettant de créer des solutions complexes et évolutives. Il s’adresse aux développeurs et équipes techniques, mais peut aussi être utilisé par des profils hybrides – comme les citizen developers », explique à Edition Multimédi@ Andreia Lopes Hermínio (photo), responsable du développement au sein de la division Low-code d’Axians, filiale de Vinci Energies. Mais la démocratisation du code – sans coder soi-même – s’est accélérée avec l’IA, à commencer par le vibe coding, expression apparue depuis le début de l’année 2025 pour désigner une technique de développement logiciel assisté par intelligence artificielle. C’est le principe du « S’il vous plaît… dessine-moi un mouton ! », d’Antoine de SaintExupéry dans « Le Petit Prince », appliqué au développement informatique à partir d’un prompt en langage naturel : « Fais-moi telle app ! », et l’IA génère directement le code fonctionnel et l’application, sans que l’utilisateur ait de connaissances techniques. C’est ce que l’informaticien slovaco-canadien Andrej Karpathy (4), ancien chercheur scientifique et membre fondateur d’OpenAI ainsi qu’ex-directeur de l’IA chez Tesla, appelle le « codage d’ambiance » (vibe coding). « Il existe un nouveau type de codage que j’appelle le “vibe coding”, où l’on se laisse aller à l’ambiance, où l’on adopte les exponentielles et où l’on oublie même l’existence du code. C’est possible parce que les LLM (par exemple, Cursor Composer [d’Anysphere, start-up issue du MIT, ndlr] avec Sonnet [le modèle d’Anthropic, ndlr]) sont de plus en plus performants. De plus, je communique avec Composer via SuperWhisper [modèle de transcription vocale développé par OpenAI, ndlr], ce qui fait que je touche à peine au clavier », avait expliqué Andrej Karpathy en février 2025 sur X (5). Et du vibe coding aux IA codeuses, il n’y a qu’un pas agentique vers l’« agent-first » (l’agent d’abord) où l’IA planifie et exécute de manière autonome des tâches logicielles complexes – de bout en bout.
Mais pas de panique ! Les IA codeuses, comme pour le no-code ou le vibe coding, auront toujours besoin de supervision humaine. Ces agents du codage sont comme des professionnels full stack, mais intégrés dans les workflows des développeurs. De simple créateur de lignes de code, le développeur va devenir un « prompt engineer », ou superviseur d’IA codeuse. « Le développeur devient un architecte », souligne Sornin (27 ans), lui-même développeur full stack. Cependant, certains devs pourraient craindre une déqualification de leur expertise, réduite à de la validation ou à du débogage. Le métier de développeur en France concerne environ un demi-million de personnes, parmi plus de 9 millions de développeurs dans l’Union européenne (plus de 45 millions dans le monde). Leur métier est-il en sursis ? La fédération syndicale Uni Europa ICTS dit « se batt[re] pour que l’IA serve les intérêts des travailleurs » (6).

Les développeurs réduits au chômage ?
« Aujourd’hui, l’IA est devenue un véritable compagnon de travail, capable non seulement d’écrire du code, mais aussi de naviguer dans les applications, de tester automatiquement et même de déboguer plus vite que moi, témoigne sur LinkedIn Antoine Martinelli, développeur web et intégrateur IA, basé en Suisse. Le développeur de demain ressemblera davantage à un intégrateur, un responsable de développement, ou un créatif technologique » (7). L’avenir dira si les IA codeuses augmentent la productivité des développeurs, ce que semble contredire pour l’instant une étude du centre de recherche METR (8) selon laquelle « lorsque les développeurs utilisent des outils d’IA, ils prennent 19 % de plus de temps que sans eux – l’IA les ralentit » (9). Pour l’instant… @

Charles de Laubier

Premier jugement historique en Europe condamnant OpenAI pour atteinte au droit d’auteur

Même si ce jugement historique du 11 novembre 2025 – prononcé par le tribunal de Munich contre de l’éditeur américain de ChatGPT accusé de contrefaçon musicale – est provisoire (OpenAI ayant fait appel), il sonne comme un avertissement planétaire à toutes les sociétés d’IA génératives.

Tobias Holzmüller (photo), le PDG de la Gema, qui est en Allemagne ce que la Sacem est en France, peut être fier du verdict historique obtenu en première instance du tribunal régional de Munich le 11 novembre 2025 : la manière dont OpenAI gère actuellement ChatGPT viole les lois européennes applicables sur le droit d’auteur. « Pour la première fois en Europe, l’argument en faveur de l’utilisation par les systèmes d’IA générative d’œuvres protégées par le droit d’auteur a été examiné juridiquement et statué en faveur des créateurs des œuvres », s’est félicitée la Société pour les droits d’exécution musicale et de reproduction mécanique (Gema).

Copyright : Internet n’est pas open bar
Cette décision judiciaire allemande – première de ce type dans l’Union européenne (UE) et au retentissement mondial – a clairement jugé que la licorne américaine OpenAI aurait dû acquérir les droits sur les paroles des paroliers et auteurs-compositeurs du répertoire de la Gema, avant de les utiliser pour entraîner ses modèles d’IA et de les exploiter avec son chatbot ChatGPT. De telles reproductions sans autorisations constituent aux yeux du tribunal de Munich des violations du droit d’auteur, et pour lesquelles OpenAI aurait dû obtenir une licence qui offre aux titulaires des droits une rémunération appropriée.
C’est la première fois dans l’UE qu’une décision clarifie aujourd’hui des questions juridiques-clés concernant la manière dont les nouvelles technologies interagissent avec le copyright européen. « Internet n’est pas une sorte de buffet en libre-service, et les réalisations créatives des êtres humains ne sont pas simplement des modèles à utiliser gratuitement. Aujourd’hui, nous avons établi un précédent qui protège et clarifie les droits des détenteurs de droits d’auteur créatifs : les opérateurs d’outils d’IA tels que ChatGPT doivent (suite) également se conformer à la loi sur le droit d’auteur. Aujourd’hui, nous avons défendu avec succès les moyens de subsistance des créateurs de musique », a déclaré Tobias Holzmüller. Et ce n’est pas faute pour la Gema de ne pas proposer un modèle de licence développé spécifiquement pour les fournisseurs de systèmes d’IA. Depuis septembre 2024, la « Sacem » allemande (basée à Berlin) propose ce type de licence IA comme « base juridique sûre » pour utiliser la musique afin de faire fonctionner et d’entraîner les modèles d’IA, « en garantissant que les créateurs de musique soient équitablement rémunérés, de manière à continuer d’encourager l’innovation musicale ». Or, jusqu’à présent, la Gema constate qu’OpenAI a montré « une réticence générale » à suivre tout modèle de licence quel qu’il soit. L’organisation berlinoise, qui lance ainsi un avertissement à toutes les sociétés d’IA dans le monde, a par ailleurs déposé plainte contre une autre entreprise américaine, Suno, qui, elle, fournit des contenus audios générés par une IA entraînée sur des enregistrements originaux d’œuvres du répertoire de la Gema. L’audience devrait avoir lieu le 26 janvier 2026. A noter que par ailleurs Suno a annoncé le 25 novembre 2025 un accord avec Warner Music (1). « La décision du tribunal régional de Munich montre que la manière dont les systèmes d’IA fonctionnent porte systématiquement atteinte aux droits des auteurs. Il y a un besoin urgent d’agir ici. Le modèle de licence de la Gema propose une solution, mais le cadre juridique doit également être amélioré en faveur des artistes créatifs, afin que l’acquisition des licences par les entreprises devienne la règle. Nous continuerons à travailler vers cet objectif », a prévenu Kai Welp, le directeur juridique de la société allemande de gestion collective des musiciens (2).
La justice allemande a clairement indiqué qu’OpenAI n’est pas une organisation de recherche bénéficiant de privilèges et que l’autorisation légale de ce que l’on appelle l’exploration de texte et de données – Text and Data Mining (TDM) – ne justifie en aucun cas le stockage et la production de paroles de chansons protégées par le droit d’auteur. Or la Gema a pu démontrer que ChatGPT reproduit des paroles protégées par le droit d’auteur, en réponse à de simples prompts. Le tribunal munichois a confirmé que cette utilisation suppose une obligation de délivrance de licences.

OpenAI Ireland Ltd et OpenAI LLC
Le groupe OpenAI a donc été condamné pour violation du droit d’auteur. La Gema représente les droits d’auteur détenus par plus de 100.000 membres – compositeurs, paroliers et éditeurs de musique – et plus de 2 millions de détenteurs de droits de propriété intellectuelle dans le monde. C’est l’une des plus grandes sociétés de gestion collective des droits d’auteur dans l’industrie musicale. La 42e chambre civile du tribunal régional de Munich lui a donné raison en confirmant l’essentiel de ses demandes de mesures injonctives, d’informations et de dommages-intérêts, contre deux sociétés du groupe OpenAI : la filiale européenne opératrice du chatbot ChatGPT, OpenAI Ireland Ltd (à Dublin), et la maison mère américaine – du moins l’entité commerciale à but lucratif OpenAI LLC (3) – basée en Californie (à San Francisco). La Gema a porté plainte contre ces deux sociétés du groupe d’IA génératives pour avoir mémorisé les paroles de la chanson dans des grands modèles de langage (LLM), permettant ainsi à ChatGPT de donner des réponses aux utilisateurs en grande partie fidèles aux paroles originales.

Pas de Text and Data Mining (TDM)
Les accusations de la Gema à l’encontre de la firme de Sam Altman (photo ci-contre) pour contrefaçon portent sur les paroles de neuf auteurs allemands célèbres : « Atemlos » de Kristina Bach, « 36 Grad » de Thomas Eckart, Inga Humpe, Peter Plate et Ulf Leo Sommer, « Bochum » et « Männer » de Herbert Grönemeyer, « Über den Wolken » de Reinhard Mey, « June » de Jan Vetter ainsi que « Es schneit », « In der Weihnachtsbäckerei » et « Wie schön, dass du geboren bist » de Rolf Zuckowski. OpenAI avait contesté les affirmations de la Gema, en prétendant qu’au contraire ses « modèles linguistiques » ne sauvegardaient pas ou ne copiaient pas de données d’entraînement spécifiques, mais reflétaient dans leurs paramètres ce qu’ils auraient appris sur la base de l’ensemble des données d’entraînement.
L’éditeur de ChatGPT estimait que les réponses du chatbot ne seraient générées qu’à la suite de saisies d’utilisateurs (prompts), et que par conséquence ce n’était pas OpenAI mais l’utilisateur en tant que producteur de la sortie qui serait responsable de celles-ci. De plus, dans tous les cas, OpenAI a invoqué les limites au droit d’auteur, en particulier l’exception pour ce que l’on appelle la fouille de textes et de données (TDM). Le jury allemand ne l’a pas entendu de cette oreille, et a décidé que « la mémorisation dans les modèles de langage et la reproduction des paroles des chansons dans les sorties du chatbot empiètent sur les droits d’exploitation du droit d’auteur. Celles-ci ne sont pas couvertes par les dispositions de restriction, en particulier la limitation de l’exploration de texte et de données ». Selon la 42e chambre civile, les paroles de la chanson en question étaient « reproductiblement » contenues dans les modèles linguistiques 4 (GPT 4) et 4o (GPT4Turbo) d’OpenAI. En effet, les données d’entraînement d’IA peuvent être contenues dans des modèles de langage et extraites en tant que résultats. C’est ce qu’on appelle la « mémorisation ». Une telle situation existe si les modèles de langage non seulement prennent des informations de l’ensemble de données d’entraînement pendant l’entraînement, mais trouvent également un transfert complet des données d’entraînement dans les paramètres spécifiés après l’entraînement. « Cette mémorisation a été établie en comparant les paroles des chansons contenues dans les données d’entraînement avec les reproductions dans les sorties. Compte tenu de la complexité et de la longueur des paroles, la coïncidence a été écartée comme cause de la reproduction des paroles. La mémorisation donnait une incarnation, comme condition préalable à la reproduction par droit d’auteur, des paroles contestées par des données dans les paramètres spécifiés du modèle. Les paroles des chansons en question étaient  »reproductiblement » définies dans les modèles », a expliqué le tribunal régional de Munich dans une communication (4) émise le 11 novembre 2025 dans la foulée du rendu de sa décision. A l’appui de son jugement, le jury s’est appuyé sur la directive européenne « Droit d’auteur et des droits voisins dans la société de l’information » de 2001 – ou DADVSI (5), parfois appelée « InfoSoc » – où il est précisé « par quelque moyen et sous quelque forme que ce soit » lorsqu’il est question de « reproduction directe ou indirecte, provisoire ou permanente » (6). Ce que l’Allemagne a, elle, transposé dans sa législation nationale dans sa loi sur le droit d’auteur dite « UrhG » (7). Aussi, selon la jurisprudence de la Cour de justice de l’Union européenne (CJUE), « une perceptibilité indirecte suffit à caractériser une reproduction dès lors que l’œuvre peut être perçue au moyen d’un dispositif technique ».
Et le tribunal insiste sur le fait que cette reproduction dans les modèles d’IA n’est pas couverte par les dispositions de limitation de l’exploration de texte et de données (TDM). Selon lui, la formation des IA extrait non seulement des informations des données d’entraînement, mais reproduit également des œuvres, ce qui ne constitue pas du TDM. « Le principe de l’exploration de texte et de données – ainsi que les dispositions de limitation associées selon lesquelles aucun intérêt d’exploitation n’est affecté par l’évaluation automatisée de la simple information elle-même – ne s’applique pas à [OpenAI]. Au contraire, les reproductions données dans le modèle empiètent sur le droit d’exploitation des titulaires de droits. […] Dans le cas des reproductions du modèle, l’exploitation de l’œuvre est définitivement compromise et les intérêts légitimes des titulaires des droits en sont violés », développe la décision judicaire.

En France, SACD et Scam réjouies
Autant l’homologue française de la Gema – la Société des auteurs, compositeurs et éditeurs de musique (Sacem) – n’a pas publié de communiqué sur cette première victoire européenne, autant la Société des auteurs et compositeurs dramatiques (SACD) et la Société civile des auteurs multimédia (Scam) ont fait communiqué commun (8) le 14 novembre 2025 pour se réjouir de cette décision historique et se dire « prêtes à négocier » des licences : « Cette décision crée un précédent essentiel que les services d’IA, qu’ils s’agissent des licornes européennes ou des multinationales américaines ou chinoises, ne peuvent ignorer : l’innovation ne peut se faire au détriment des créateurs et au mépris de leurs droits ». @

Charles de Laubier

Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet.

Exception de Text and Data Mining
Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés. Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur prochaine du règlement européen sur l’intelligence artificielle – l’AI Act dont le texte final (1) a été signé le 13 juin 2024 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles.

En effet, l’article 53 et l’annexe XI de l’AI Act imposent, entre autres, aux fournisseurs de modèles d’IA à usage général (2) de mettre à disposition des informations sur les données utilisées pour l’entraînement de ces modèles, au moyen d’un document-type qui sera mis à disposition par le bureau de l’IA (AI Office). Ils doivent notamment indiquer comment ces données ont été obtenues et sélectionnées, ainsi que toutes les mesures prises pour détecter les sources de données inadéquates. Pour pouvoir se conformer de manière sereine à ces nouvelles exigences (3), il est indispensable de s’assurer que les données d’entraînement ont été récupérées et collectées dans le respect des droits de propriété intellectuelle et du RGPD, sous peine de risquer des actions en contrefaçon ou des procédures de sanction devant les autorités de contrôle (4). En effet, le contenu d’un site Internet qu’un acteur entend scrapper (« moissonner ») pour constituer une base de données d’entraînement peut à la fois contenir des données à caractère personnel, mais également être protégé au titre du droit d’auteur (5) ou du droit des bases de données (6). Or, par principe, toute reproduction et utilisation d’un contenu protégé par un droit de propriété intellectuelle nécessite d’obtenir l’autorisation du titulaire des droits concernés. Néanmoins, afin de favoriser le développement de l’IA, le code de la propriété intellectuelle (CPI) a introduit, pour le droit d’auteur et le droit des producteurs de bases de données, les exceptions de fouilles de textes et de données (dites de Text and Data Mining) qui permettent de scrapper des données à des fins d’entraînement des modèles, sous réserve de respecter un certain nombre de conditions. Il y a en réalité deux régimes : la fouille de textes et de données à des fins de recherche scientifique (7) et celle à des fins diverses (8).
L’exception de fouille à des fins de recherches scientifique présente l’avantage d’être un droit absolu (le titulaire des droits ne peut pas s’y opposer), sous réserve que l’accès aux données soit réalisé de manière licite (9). Néanmoins, son périmètre est relativement restreint puisque seuls peuvent s’en prévaloir certains acteurs limitativement énumérés (10). La plupart des fournisseurs de systèmes d’IA ne peut donc pas mobiliser cette exception et doit se rabattre sur l’exception générale dite à des fins diverses. Pour pouvoir invoquer le bénéfice de cette exception générale, le fournisseur de système d’IA doit accéder aux données de manière licite et s’assurer que le titulaire des droits de propriété intellectuelle ne s’y est pas opposé.

« Moissonnage » et données personnelles
Les textes précisent que l’opposition du titulaire des droits « n’a pas à être motivée et peut être exprimée par tout moyen », notamment « au moyen de procédés lisibles par machine, y compris des métadonnées, et par le recours à des conditions générales d’utilisation » (11). Pour l’opposition via des procédés techniques, plusieurs outils existent (Robot.txt, AI.txt, TDMRep, …). En pratique, cela signifie que pour pouvoir scrapper les données des sites Internet à des fins d’entraînement des modèles, les fournisseurs de systèmes d’IA ne doivent pas contourner les éventuels dispositifs de protection existants (par exemple un accès restreint par un compte utilisateur) et doivent s’assurer, au moment de l’extraction des données, que les conditions générales d’utilisation (CGU) et/ou mentions légales du site Internet ne contiennent pas de clause interdisant l’extraction des données et que les métadonnées du site Internet n’expriment pas non plus une telle interdiction. L’AI Act confirme ce dernier point (12).
Lorsqu’un titulaire de droits s’est opposé à l’extraction de ses données, le fournisseur de système d’IA n’a d’autre choix que d’obtenir une autorisation expresse (13) au moyen d’un accord de licence ou de partenariat, comme ont récemment pu le faire OpenAI avec Le Monde, Die Welt et El País (14). Une fois ces vérifications opérées, le fournisseur de système d’IA devra suivre des étapes supplémentaires si le contenu qu’il souhaite « moissonner » contient des données à caractère personnel, afin de respecter le RGPD.

Base légale de l’intérêt légitime
Ces derniers mois, la Cnil a publié plusieurs fiches pour guider les fournisseurs de systèmes d’IA (15) au sein desquelles elle clarifie comment appliquer les principes clefs aux spécificités de l’IA. Elle y admet qu’il est possible de fonder les traitements d’entraînement des modèles d’IA sur la base légale de l’intérêt légitime, notamment lorsque les données sont collectées à partir de sources publiques (16), sous réserve de mener une analyse au cas par cas permettant de documenter la légitimité de l’intérêt poursuivi, sa nécessité et le fait qu’il n’y a pas d’atteinte disproportionnée aux intérêts, droits et libertés des personnes. Pour autant, en juin 2024, Noyb a porté plainte – auprès de onze « Cnil » en Europe – contre Meta dont il conteste la faculté de se fonder sur l’intérêt légitime pour récupérer les données de Facebook et Instagram afin d’entraîner ses modèles d’IA. Dans l’attente, Meta a stoppé son projet (17).
La première étape avant de scrapper des données à caractère personnel est de définir la finalité du traitement, à partir de laquelle l’analyse de conformité aux principes de protection des données personnelles pourra être réalisée. A partir de cette finalité (créer une base de données afin d’entraîner des modèles d’IA permettant d’évaluer l’appréciation d’œuvres par le public, développer un LLM capable de répondre à des questions, générer du texte, effectuer des résumés, etc,…), le fournisseur de modèles d’IA devra s’assurer du respect du principe de minimisation, en ne collectant que les données pertinentes et nécessaires pour atteindre son objectif. Concrètement, cela signifie qu’il doit s’interroger en amont sur les catégories de données nécessaires pour l’entraînement du modèle d’IA. En pratique, il devra définir les catégories de données à collecter et mettre en place des filtres permettant d’exclure la collecte de certaines données. Dans sa fiche dédiée au web scraping (18), la Cnil précise que dans l’hypothèse où des données non pertinentes seraient collectées malgré les filtres mis en place, il convient de supprimer ces données, immédiatement après leur collecte ou dès elles ont été identifiées. Elle appelle également à la prudence sur la collecte automatique de données sensibles en invitant les fournisseurs à appliquer des filtres permettant d’écarter la collecte de données sensibles (19) non pertinentes ou à exclure de leurs activités de scraping certains sites comportant par nature ce type de données.
Respecter le RGPD suppose, par ailleurs, d’informer les personnes concernées et de faciliter l’exercice de leurs droits. La Cnil reconnaît (20) qu’en cas de collecte parweb scraping, une information individuelle des personnes pourrait, dans certains cas, être disproportionnée et donc non obligatoire. Elle recommande alors au fournisseur du système d’IA de fournir une information générale (par exemple au sein de sa politique de confidentialité) contenant notamment les catégories de sites sources utilisés avec des liens hypertextes vers ceux-ci, en proposant un modèle dédié. Pour les droits des personnes, elle rappelle qu’un responsable du traitement n’a pas à conserver ou collecter des informations supplémentaires qui ne lui sont pas nécessaires dans le seul but de permettre l’exercice des droits. La Cnil propose néanmoins des exemples de mesures que les fournisseurs de modèles d’IA pourraient mettre en place pour faciliter l’exercice des droits (comme la conservation de métadonnées ou d’informations sur la source des données pour faciliter la recherche d’une personne au sein de la base ou l’indication aux personnes des données à fournir pour les identifier).
La Cnil propose enfin de mettre en place des mesures supplémentaires pour garantir l’équilibre attendu de ces traitements basés sur l’intérêt légitime. Certaines mesures découlant des règles précédemment citées semblent réalisables : exclure par défaut la collecte à partir de certains sites contenant des données intrusives ; prévoir la possibilité de s’opposer au traitement de manière discrétionnaire ; appliquer des procédés d’anonymisation ou de pseudonymisation après la collecte des données. D’autres semblent moins pragmatiques.

AI Office : recommandations très attendues
Certains acteurs pourraient ainsi saisir l’opportunité de remonter leurs questionnements, difficultés pratiques, appréciation des règles dans le cadre de la consultation publique à laquelle sont soumises certaines fiches jusqu’au 15 septembre 2024 (21) ou répondre au questionnaire (22). A l’aune de l’entrée en vigueur de l’AI Act, les fournisseurs de modèles d’IA à usage général attendront donc les précieuses recommandations et modèles du bureau de l’IA, tout récemment créé (23), sur les documents à produire pour les sources de données d’entraînement, afin de leur permettre d’engager les travaux nécessaires à la compilation de ces informations. @