Les médias en ligne redoutent la transformation du moteur de recherche Google en IA générative

Plus de 25 ans après sa création par Larry Page et Sergey Brin, le moteur de recherche en quasi-monopole fait sa mue pour devenir une IA générative qui aura réponse à tout. Les sites web de presse pourraient être les victimes collatérales en termes d’audience. Le chat-search présentera moins de liens.

(après que des internautes aient signalé des résultats erronés générés par « AI Overviews », Google a annoncé le 30 mai des mesures correctrices, y compris en améliorant ses algorithmes) 

Google est mort, vive Google ! Mais cet enthousiasme ne sera sans doute pas partagé par les sites de médias en ligne qui tirent jusqu’à maintenant une part importante de leurs audiences de la consultation massive du moteur de recherche Google, lorsque ce n’est pas de son agrégateur d’actualités Google News. Depuis que Sundar Pichai, le PDG d’Alphabet, maison mère de Google, a annoncé le 14 mai – lors du Google I/O 2024 (1) – la plus grande transformation du numéro un mondial du search en un moteur d’IA générative, les éditeurs de presse en ligne s’inquiètent pour la fréquentation de leurs sites Internet. L’objet de leurs craintes s’appelle « AI Overviews », la fonctionnalité la plus « intelligente » et disruptive jamais introduite dans Google depuis son lancement il y a un quart de siècle (2). La page de résultats de recherche ne sera plus présentée de la même manière : fini la liste impersonnelle de liens donnant accès à des sites web censés répondre, après avoir cliqué, à vos requêtes courtes et souvent par mots-clés ; place à une réponse détaillée et intelligible développée par l’IA générative elle-même, en fonction de ce que vous lui avez demandé en langage naturel, avec quelques liens seulement triés sur le volet en guise de sources venant étayer la réponse et/ou le raisonnement.

Avec « AI Overviews », moins besoin de cliquer
Cette combinaison de l’IA générative et de l’IA multimodale fait passer Google de l’ère du « moteur » (search) à celle d’« assistant » (chatbot). Le nouveau Google « intelligent » a commencé à être déployé aux Etats-Unis depuis mi-mai, et d’autres pays dans le monde suivront pour atteindre 1 milliard d’utilisateurs d’ici la fin de l’année. L’IA générative de Google, appelée Gemini, vous mâche le travail sans que vous ayez forcément besoin d’aller cliquer sur les liens relégués au second plan. « Maintenant, avec l’IA générative, le moteur de recherche peut faire plus que vous ne l’imaginez. Vous pouvez donc demander ce que vous avez en tête ou ce que vous devez faire – de la recherche à la planification en passant par le brainstorming – et Google s’occupera des démarches », a expliqué Elizabeth Reid, alias Liz Reid (photo), vice-présidente de Google, responsable du moteur de recherche. Cliquer sur des liens devient une option, tant la réponse « AI Overviews » (« Aperçus de l’IA » en français) peut s’évérer satisfaisante.


La « Google dépendance » des médias
Surtout que Gemini est un grand modèle multimodal (LMM), développé par Google DeepMind, capable de comprendre et de générer du contenu en utilisant différents types de données comme du texte, des images, de l’audio et de la vidéo. YouTube, Google Maps ou encore Google Shopping seront mis à contribution. La réponse synthétique du chat-search apportée à l’utilisateur est multimédia et vise à satisfaire immédiatement ce dernier, avec peu de sites mis en exergue par AI Overviews, afin que l’internaute n’aille plus se perdre dans un inventaire de liens à la Prévert.
La liste de sites web habituellement en tête des résultats de recherche sur Google (comme sur d’autres moteurs de recherche d’ailleurs) se retrouve tout en bas de la page. Cette réorganisation du moteur de recherche de la firme de Mountain View va chambouler au passage toutes les stratégies d’optimisation pour les moteurs de recherche, ce que l’on appelle SEO (Search Engine Optimization). De plus, le nouveau « AI Google » pourrait éradiquer les « spams SEO », ou spamdexing (4), et limiter les liens sponsorisés qui parasitent les résultats de recherche. Mais les prestataires de SEO appellent à plus de transparence sur AI Overviews, rapporte eMarketer (5). Les médias en ligne optimisent eux aussi leur visibilité dans les résultats de recherche et, partant, augmentent leur trafic. Revers de la médaille de cette « Google dépendance », qui atteindrait jusqu’à près de la moitié de l’audience d’un site web : les éditeurs du monde entier s’attendent à ce que leurs audiences chutent. « A mesure que nous étendrons cette expérience, nous continuerons à nous concentrer sur l’envoi de trafic précieux aux éditeurs et aux créateurs », a tenté de les rassurer Liz Reid.
Beaucoup de candidats, peu d’élus : tel pourrait être à l’avenir le bilan de d’AI Overviews sur la presse en ligne, certains désavantagés pourraient être poussés à mettre la clé sous la porte. En France, le directeur général de l’Alliance de la presse d’information générale (Apig), qui réunit 300 titres quotidiens nationaux (Le Monde, Le Figaro, Libération, …) et régionaux (La Provence, Ouest-France, Sud-Ouest, …), a exprimé dans Le Monde ses craintes : « Le risque est que le moteur de recherche devienne un moteur de réponse. Et que les réponses générées par l’IA prennent sur le moteur la place des liens vers les sites web. Cela serait pour nous catastrophique économiquement », a ainsi prévenu Pierre Petillault (6). En prenant la main sur Google Search, le moteur « AI Overviews » effectue la recherche à la place de l’utilisateur-lecteur et produit lui-même un contenu multi-source. L’internaute gagne du temps, mais les sites web perdent en trafic et donc en publicité. Et en occupant une grande partie de la page de résultats, la réponse de « Google Gemini » tend à se suffire en elle-même. Le clic devient optionnel. « Nous voyons que les liens inclus dans AI Overviews obtiennent plus de clics que si la page était apparue comme une liste de sites web traditionnelle pour cette requête », a assuré Liz Reid pour apaiser les craintes. Mais qu’adviendra-t-il des sites web situés tout en bas de la page de résultats, où la trappe se le dispute aux oubliettes. « La question, c’est qui choisit ces liens ? Parce qu’il n’y en aura que quelques-uns [dans AI Overviews]. Comment puis-je m’assurer que mes liens, mon site, mon contenu sont inclus dans ces résultats ? J’imagine qu’il faudra payer, ce qui n’est pas vraiment différent de ce qui existait jusqu’ici », s’est interrogé David Clinch, cofondateur du cabinet de conseil Media Growth Partners (MGP), cité par l’AFP le 16 mai.
Autre inquiétude : le 21 mai, lors de son Google’s Marketing Live (7), le géant du Web a révélé que ses aperçus IA incluront des publicités signalées « sponsorisées » dans les réponses, reléguant aussi plus bas dans la page les liens sponsorisés classiques. De quoi destabiliser tout l’écosystème.
Le lièvre Microsoft associé à OpenAI a été le premier, fin 2023, à mettre de l’IA générative dans son moteur de recherche Bing. Mais il est rattrapé par la tortue Google qui a pris le temps de tester depuis un an son AI Overviews boosté par Gemini (ex-Bard). Contrairement au marché traditionnel des moteurs de recherche où Google est ultradominant, la concurrence devrait être plus exacerbée, OpenAI (8), Perplexity (9) ou encore Anthropic (10) étant décidés à tailler des croupières à Google Search.

Baisse de régime des moteurs en vue
D’autant que le cabinet américain Gartner a prédit que les moteurs de recherche traditionnels verront leur volume de requêtes chuter d’un quart (- 25 %) d’ici 2026 au profit des chatbots ou autres agents virtuels alimentés par l’IA. « Les solutions d’IA générative (GenAI) deviennent des moteurs de réponse de substitution, remplaçant les requêtes des utilisateurs qui pouvaient auparavant être exécutées dans les moteurs de recherche traditionnels. Cela forcera les entreprises à repenser leur stratégie de canaux marketing à mesure que GenAI s’intègrera à tous les aspects de l’entreprise », prévient Alan Antin, l’un de ses analyses (11). Pour ne pas caler, les moteurs de recherche sont tous contraints de devenir des moteurs de réponse à tout. @

Charles de Laubier

Divisée face aux Gafam, la presse française ne favorise pas la transparence sur les droits voisins

Carine Fouteau, nouvelle présidente et directrice de la publication Mediapart, pointe la non transparence de Google sur les sommes dues au titre des droits voisins de la presse. Mais elle s’en prend aussi « aux médias qui ont fait le choix du chacun pour soi en signant des accord individuels ».

C’est le premier coup de gueule de Carine Fouteau (photo), cette journaliste qui a succédé en mars 2024 à Edwy Plenel à la présidence de la Société éditrice de Mediapart. La nouvelle directrice de la publication de Mediapart a dénoncé fin avril « l’opacité des Gafam » en général et « l’absence de transparence » de Google en particulier. Le média d’investigation reproche notamment « les clauses de confidentialité imposées par Google » dans le cadre de l’accord que ce dernier a signé en octobre 2023 avec la Société des droits voisins de la presse (DVP).

L’Autorité de la concurrence a déjà sévi
Ce premier « accord majeur » de la Société DVP avec Google porte sur l’exploitation des contenus de presse par Google Actualités, Google Search et Google Discover sur la période allant d’octobre 2019 à décembre 2022. Le montant total ainsi collecté – pour le compte des 305 éditeurs (dont Edition Multimédi@) et agences de presse membres de cet organisme de gestion collective – n’a pas été divulgué. Et pour cause, Google impose à la Société DVP des clauses de confidentialité qui l’empêche de publier l’enveloppe globale obtenue dans le cadre de cet accord contractuel. La nouvelle patronne de Mediapart (1), dont la société éditrice est membre du conseil d’administration de la Société DVP, pointe ce défaut de transparence. Les sommes correspondantes à cette première période ont été versées en mars aux éditeurs membres, tandis que le média fondé par Edwy Plenel a décidé de ne pas encaisser la « substantielle somme » lui revenant. « La rétribution ne retourne pour autant pas à l’envoyeur (Google) : elle reste en réserve dans l’organisme de gestion collective, en attendant que le voile sur les chiffres soit levé », a précisé Carine Fouteau sur le site d’investigation.

Elle rappelle que l’Autorité de la concurrence (ADLC) venait, par décision datée du 15 mars dernier (2), d’infliger à Google une amende de 250 millions d’euros pour ne pas avoir respecté certains engagements rendus obligatoires depuis juin 2022, notamment sur la transparence justement. « Nous avons développé une méthodologie non-discriminatoire et transparente », s’est défendu Google (3). Cette décision était la quatrième rendue en quatre ans par l’ADLC sur ce dossier « Google/droits voisins de la presse », dont une première amende de 500 millions d’euros infligée à Google le 12 juillet 2021 (4) pour non-respect des injonctions qui lui avaient été faites par décision du 9 avril 2020 (5). Selon nos informations, la somme collectée au titre de l’année 2023 par la Société DVP auprès de Google sera répartie entre les éditeurs membres à la fin de l’année 2024. Des négociations sont aussi en cours avec d’autres géants du Net (6). Meta (Facebook, Instagram) et Microsoft (MSN, LinkedIn) pourraient être les prochains à signer avec l’organisme de gestion collective. Des négociations sont également en cours avec X (ex-Twitter). « Pour faire plier les mastodontes de la tech, il est urgent que la représentation nationale, via le Parlement, prenne le relais et complète la loi de 2019 [établissant un droit voisin de la presse par transposition en France de la directive européenne de 2019 sur le “droit d’auteur dans le marché unique numérique”, ndlr] en inscrivant ce refus du secret dans le marbre », a estimé Carine Fouteau.
La Société DVP – présidée par Jean-Marie Cavada – a en fait confié toutes ces négociations à deux organismes : la Sacem (7) pour les plateforme numériques dites B2C (orientées consommateurs) telles que Google, Meta, Microsoft, LinkedIn ou encore Twitter ; le CFC (8) pour les plateformes numériques dites B2B (pour entreprises et professionnels) telles que les prestataires de veille média comme Onclusive (ex-Kantar Media), Cision (ex-L’Argus de la presse) ou encore des crawlers (9).
La non-transparence dans la rémunération des droits voisins de la presse vient aussi du fait que la presse française négocie en ordre dispersé avec les Gafam. Et cela vaut aussi bien pour les moteurs de recherche et agrégateurs d’actualités que pour les intelligences artificielles génératives. « Contrairement aux médias qui ont fait le choix du chacun pour soi en signant des accords individuels, nous considérons que seul un front uni des acteurs du secteur est à même de faire fléchir ces multinationales, qui, sans législation, continueraient de piller nos articles », a estimé la présidente de la Société éditrice de Mediapart.

Moteurs et IA générative : la presse dispersée
Rappelons que l’ADLC avait remis en cause en juillet 2021 le premier accord-cadre signé entre Google et l’Alliance de la presse d’information générale (Apig). Un second fut nécessaire, pour que les quotidiens membres (300 titres) puissent signer individuellement (10). Mais le 9 avril dernier, l’Apig a annoncé confier à la Sacem la renégociation de ses accords-cadres avec Google et Meta (11), après lui avoir confié en octobre 2023 les négociations avec les autres géants du Net. @

Charles de Laubier

IA génératives, contrefaçons, exceptions au droit d’auteur et opt out : où se situent les limites ?

Adopté par les eurodéputés le 13 mars 2024, l’AI Act – approuvé par les Etats membres en décembre 2023 – va être définitivement voté en plénière par le Parlement européen. Mais des questions demeurent, notamment sur les limites du droit d’auteur face aux intelligences artificielles génératives.

Par Vanessa Bouchara, avocate associée, et Claire Benassar, avocate collaboratrice, Bouchara & Avocats.

Si l’utilisation des intelligences artificielles (1) est désormais largement répandue, ces techniques et technologies capables de simuler l’intelligence humaine restent au cœur de nombreux questionnements – tant éthiques que juridiques. Alors même que le projet de règlement européen visant à encadrer l’usage et la commercialisation des intelligences artificielles au sein de l’Union européenne, dit AI Act (2), a été adopté en première lecture le 13 mars 2024 par le Parlement européen (3), c’est l’intelligence artificielle générative – IAg, AIG ou GenAI – qui est aujourd’hui sujette à controverse.

Droit d’auteur et procès en contrefaçon
A l’origine du débat les concernant, il importe de rappeler que les systèmes d’IAg ont pour particularité de générer du contenu (textes, images, vidéos, musiques, graphiques, etc.) sur la base, d’une part, des informations directement renseignées dans l’outil par son utilisateur, et, d’autre part et surtout, des données absorbées en amont par l’outil pour enrichir et entraîner son système. Les systèmes d’intelligence artificielle générative sont ainsi accusés d’être à l’origine d’actes de contrefaçon, et pour cause : l’ensemble des données entrantes dont ils se nourrissent peuvent potentiellement être protégées par des droits de propriété intellectuelle. Où se situe donc la limite entre l’utilisation licite de ces données et la caractérisation d’un acte de contrefaçon ? Si, par principe, la reproduction de telles données est interdite, le droit européen semble désormais entrouvrir la possibilité d’utiliser celles-ci dans le seul cadre de l’apprentissage de l’IAg.

L’interdiction de reproduction de données protégées par le droit d’auteur. L’auteur d’une œuvre de l’esprit (4) jouit sur cette œuvre, du seul fait de sa création, de l’ensemble des droits conférés aux auteurs par le Code de la propriété intellectuelle (CPI). A ce titre, l’auteur d’une œuvre peut notamment s’opposer à toute reproduction de celle-ci, c’est-à-dire à toute fixation matérielle quelle qu’elle soit de son œuvre par tous procédés qui permettent de la communiquer au public d’une manière indirecte. Si l’IAg utilise en grande partie des données publiques, se pose tout de même la question de l’utilisation de ces données lorsqu’elles constituent de telles œuvres de l’esprit bénéficiant de la protection offerte par le droit d’auteur. La collecte et l’intégration de telles données dans les outils d’intelligence artificielle constituent-ils toutefois de tels actes de reproduction ? Eu égard à la définition très large du droit de reproduction, il semblerait qu’il faille répondre à cette question par la positive. En effet, la définition qui en est donnée par le législateur incite à considérer qu’en principe, tout acte de reproduction d’une œuvre doit faire l’objet d’une autorisation préalable de son auteur.
Aussi, en l’absence d’autorisation de la part de leurs auteurs, l’intégration des données d’apprentissage protégées par le droit d’auteur dans l’outil d’IAg pourrait aisément matérialiser un acte de contrefaçon par reproduction. C’est d’ailleurs à ce titre que plusieurs procédures sont en cours aux Etats-Unis. Plusieurs recours collectifs ont dernièrement été déposés en 2023 contre OpenAI et Microsoft, notamment par un regroupement d’écrivains américains – soutenus par la Authors Guild (5) – qui soutiennent que l’algorithme entraînant le robot ChatGPT manie leurs œuvres en violation de leurs droits d’auteur. Le New York Times a lui aussi porté plainte contre OpenAI et Microsoft (6). Il en est de même pour la banque d’images Getty Images qui accuse l’outil Stable Diffusion, développé par Stability AI, de violer ses droits d’auteur. Les procès se multiplient contre les IAg. Si la législation applicable est toute autre aux Etats-Unis, il nous semble toutefois que le dénouement des litiges en cours puisse potentiellement nous aiguiller sur le possible positionnement des juges français.

Exceptions, citations, extraits, …
Intelligence artificielle générative, fair use et exception de courte citation. Si les défendeurs outre Atlantique excipent généralement du concept de fair use, lequel permet l’utilisation loyale d’une œuvre par un tiers, les exceptions au droit d’auteur en France sont strictement délimitées et encadrées par les dispositions du CPI. Aussi, si les droits conférés aux auteurs d’une œuvre de l’esprit sont particulièrement étendus, le législateur les a de longue date assortis d’une liste exhaustive conséquente d’exceptions venant faire obstacle aux droits d’auteur. Parmi celles-ci, à défaut de fair use, certains entendent ainsi défendre l’IAg sur la base de l’exception de courte citation, permettant à tout tiers d’exploiter de courts extraits de l’œuvre dans la mesure où cette exploitation serait notamment justifiée par le caractère pédagogique, scientifique ou d’information de l’œuvre à laquelle elles sont incorporées. Seulement, encore faut-il que le tiers invoquant cette exception indique clairement le nom de l’auteur et la source. Ce que les outils d’IAg ne font pas, et ne peuvent pas faire eu égard à la masse de données sur laquelle se fonde leur entraînement, et surtout au regard du recoupement de l’ensemble de ces informations, lequel rend presque impossible de sourcer chacun des auteurs dont les œuvres sont utilisées.

Fouille de textes et de données limitée
L’évolution des techniques utilisées rend ainsi indispensable l’évolution du droit actuel et de la jurisprudence qui en découlera.
La limitation du droit d’auteur pour la fouille de textes et de données. Sans même anticiper l’arrivée fulgurante de l’intelligence artificielle au début des années 2020, le législateur européen est venu introduire en 2019 – via la directive « Droit d’auteur dans le marché unique numérique » (7) – une nouvelle exception au droit d’auteur en autorisant la fouille de textes et de données (« text and data mining » ou TDM), laquelle trouve ainsi à s’appliquer lorsque les reproductions d’œuvres réalisées ne remplissent pas toutes les conditions de l’exception pour les actes de reproduction provisoires. Seulement, les défenseurs de l’IAg se sont engouffrés dans cette brèche et ont entendu appliquer cette exception à la collecte et à la reproduction des données disponibles en ligne par les systèmes d’intelligence artificielle, afin de légitimer leur utilisation par ces derniers.
C’est ainsi, dans cette logique, que l’AI Act s’approprie le texte de 2019 et applique l’exception aux fins de fouille de textes et de données aux outils d’IAg. Néanmoins, exception à l’exception, le texte prévoit que tout auteur peut anticiper l’utilisation de ses œuvres par l’IA et s’opposer à cette exploitation en l’indiquant par tout moyen (droit de retrait ou opt out), auquel cas l’exception de « text and data mining » ne trouvera plus à s’appliquer. En pareille hypothèse, les systèmes d’IA seront ainsi à nouveau soumis l’obligation d’obtenir l’autorisation expresse de l’auteur afin de procéder à l’exploration de textes et de données sur ses œuvres de façon licite. Pour autant, le considérant 105 de l’AI Act, précise que les détenteurs de droits peuvent choisir de réserver leurs droits sur leurs œuvres ou autres objets pour empêcher l’exploration de texte et de données, « sauf si cela est fait à des fins de recherche scientifique ». Et dans l’article 2 du même AI Act, le sixième point prévoir que « le présent règlement ne s’applique pas aux systèmes d’IA ou aux modèles d’IA, y compris leur production, spécifiquement développés et mis en service aux seules fins de la recherche et du développement scientifiques ».
Nous nous interrogeons toutefois sur la pertinence de ce système d’« opt out » proposé aux auteurs, dans la mesure où il apparaît difficile – voire impossible – de contrôler son respect par les outils d’IA. En effet, comment un auteur peut-il contrôler que son œuvre n’est pas utilisée pour entraîner une intelligence artificielle ? A charge pour l’AI Office – le Bureau européen de l’IA créé par l’AI Act (8) – de rendre public un « résumé des contenus utilisées pour l’entraînement » de chaque IA à usage général (considérants 107 et 108 de l’AI Act, et articles 53d et 56b).
En dépit de sa volonté protectrice, et alors même qu’il n’est pas entré en vigueur, l’AI Act semble donc d’ores et déjà confronté aux difficultés inhérentes aux avancées techniques issues de l’intelligence artificielle.
Contenu généré par l’IAg et contrefaçon. Cela étant, quand bien même la fouille de données est autorisée en vertu du droit européen, cette exception reste cantonnée au seul entraînement des systèmes d’IA, et ne permet pas pour autant à l’outil de générer en fin de processus des données contrefaisantes. Aussi, dans la mesure où les données générées reproduiraient à tout le moins en partie les caractéristiques originales des données d’entraînement, elles ne pourront pas être exploitées sans l’autorisation préalable des auteurs des données d’entraînement, sauf à caractériser un acte de contrefaçon. En effet, il n’est en pratique jamais exclu que l’on puisse reconnaître tout ou partie des éléments issus des données entrantes, et il apparaît ainsi en théorie probable que des contrefaçons par imitation puissent être caractérisées. Néanmoins, dans quelle mesure l’utilisateur de l’IAg sera-t-il averti que la donnée générée contrefait une œuvre antérieure ?

Quid de la rémunération des contenus ?
S’il existe nécessairement une limite au-delà de laquelle les tribunaux pencheront en faveur de la contrefaçon, il est fort à parier que les utilisateurs des outils d’IAg la franchiront bien avant les développeurs à l’origine de ces outils. Les interrogations restent en tout cas nombreuses, comme en témoignent les deux missions lancées en France le 12 avril dernier par le Conseil supérieur de la propriété littéraire et artistique (CSPLA), d’une part sur la rémunération des contenus culturels utilisés par les IA (9) et d’autre part sur la mise en œuvre de l’AI Act (10). @

Le Monde en France, El País en Espagne, Die Welt en Allemagne : OpenAI séduit la presse au cas par cas

OpenAI a réussi à convaincre de grands titres de presse en Europe – Le Monde, El País et Die Welt – et, aux Etats-Unis, l’agence de presse AP et l’American Journalism Project pour que son IA générative ChatGPT soit plus au fait de l’actualité dans des langues différentes. Le New York Times, lui, a préféré un procès.

Le directeur des opérations d’OpenAI, Brad Lightcap (photo), n’est pas peu fier d’avoir décroché des accords pluriannuels avec les grands quotidiens européens Le Monde en France, El País en Espagne et Die Welt en Allemagne. « En partenariat avec Le Monde et Prisa Media [éditeur d’El País], notre objectif est de permettre aux utilisateurs de ChatGPT du monde entier de se connecter à l’actualité de façon interactive et pertinente », s’est-il félicité le 13 mars dernier lors de l’annonce des deux accords noués pour plusieurs années avec respectivement le groupe français Le Monde pour son quotidien éponyme et le groupe espagnol Prisa Media pour son quotidien El País, de même que pour son quotidien économique et financier Cinco Días et son site d’actualités El Huffpost (1). Trois mois auparavant, ce même Brad Lightcap annonçait un premier partenariat avec le groupe allemand Axel Springer pour son quotidien Die Welt, et son tabloïd Bild, ainsi que pour ses sites d’information Politico (édition européenne) et Business Insider (économie et finances). « Ce partenariat avec Axel Springer aidera à offrir aux gens de nouvelles façons d’accéder à du contenu de qualité, en temps réel, grâce à nos outils d’IA. Nous sommes profondément engagés à nous assurer que les éditeurs et les créateurs du monde entier bénéficient de la technologie avancée de l’IA et de nouveaux modèles de revenus », avait alors assuré le directeur des opérations d’OpenAI (2).

ChatGPT, polyglotte et informé : merci la presse
Ces « partenariats mondiaux d’information » permettent à ChatGPT d’européaniser un peu plus ses capacités d’informer en mettant à contribution trois premiers quotidiens du Vieux Continent, de trois langues différentes (français, espagnol et allemand). Et ce, après avoir largement entraîné en anglais ses grands modèles de langage « Generative Pre-trained Transformer » (GPT, GPT-2, GPT-3 et l’actuel GPT-4, en attendant GPT-5 en cours de développement). Avant les groupes européens Le Monde, Prisa Media et Axel Springer, OpenAI avait conclu aux Etats-Unis deux partenariats signés en juillets 2023 avec respectivement l’agence de presse américaine Associated Press (AP) et l’association de soutien à l’information locale American Journalism Project (AJP).

Sur fond de plainte du New York Times
« Nous sommes impatients d’apprendre d’AP [et de savoir] comment nos modèles d’IA peuvent avoir un impact positif sur l’industrie de l’information. L’accès à ses archives de textes factuels de haute qualité, aideront à améliorer les capacités et l’utilité des systèmes d’OpenAI », avait alors dit Brad Lightcap, lors de l’annonce le 13 juillet 2023 du partenariat avec l’agence de presse américaine (3). Depuis près d’une décennie, AP utilise la technologie de l’IA pour automatiser certaines tâches routinières et libérer les journalistes pour faire des reportages plus fouillés. Elle va même jusqu’à publier des dépêches automatisées prévisualisant et récapitulant certains événements sportifs, élargissant ainsi son offre de contenu.

Cinq jours après, le 18 juillet 2023, OpenAI nouait un premier accord journalistique avec cette fois l’American Journalism Project (AJP). Pour l’occasion, ce n’est pas Brad Lightcap qui avait fait une déclaration mais le cofondateur PDG d’OpenAI Sam Altman lui-même : « Nous sommes fiers de soutenir la mission de l’AJP consistant à renforcer notre démocratie en reconstruisant le secteur de l’information locale du pays. Cette collaboration souligne notre conviction que l’IA doit profiter à tous et être utilisée comme un outil pour améliorer le travail. Nous sommes impatients […] d’explorer les façons dont la technologie de l’IA peut renforcer le travail du journalisme local », avait-il expliqué (4). La société californienne (basée à San Francisco) a versé un crédit de 5 millions de dollars à cette association à but non lucratif soutenant l’information locale aux Etats-Unis pour aider des éditeurs et agences de presse locaux « à évaluer et à déployer les technologies émergentes d’IA au sein de leurs organisations », ainsi qu’« à développer des outils qui pourraient [les] aider ».
Par ailleurs, le 8 août 2023, OpenAI a versé 395.000 dollars pour la « Ethics and Journalism Initiative » de l’institut de journalisme Arthur L. Carter Journalism de l’Université de New York (5). La licorne OpenAI, cornaquée par Microsoft qui en est devenu actionnaire et investisseur à hauteur de 13 milliards de dollars, veut ainsi montrer patte blanche vis-à-vis des médias du monde entier avec son robot textuel présenté comme un partenaire du journalisme et respectueux du droit d’auteur. Et ce, au moment où GPT-4 est accusé de pirater les journaux – et, comme l’a montré le 6 mars dernier la société d’évaluation Patronus AI, les livres (6) – pour s’entraîner et apprendre automatiquement. Le New York Times, lui, n’a pas souhaité signer un accord « ChatGPT », préférant croiser le fer judiciaire en portant plainte le 27 décembre 2023 contre OpenAI devant le tribunal de New York. « Microsoft et OpenAI utilisent illégalement le travail du Times [le New York Times, ndlr] pour créer des produits d’intelligence artificielle qui lui font concurrence et menacent la capacité du Times à fournir ce service. Leurs outils d’IA générative (GenAI) reposent sur des grands modèles de langage (LLM, ou Large Language Model) qui ont été créés en copiant et en utilisant des millions d’articles de presse protégés par le droit d’auteur du Times, des enquêtes approfondies, des articles d’opinion, des critiques, des guides pratiques, etc », a dénoncé The New York Times Company dans sa plainte de 69 pages (7). Et d’accuser Microsoft et OpenAI d’avoir opéré un piratage d’ampleur sur son quotidien de référence : « Bien que Microsoft et OpenAI aient effectué des copies à grande échelle à partir de nombreuses sources, ils ont accordé une importance particulière au contenu du Times lors de la construction de leurs LLM, révélant une préférence qui reconnaît la valeur de ses œuvres. Grâce au Bing Chat de Microsoft (récemment rebaptisé Copilot) et au ChatGPT d’OpenAI, ces derniers cherchent à profiter de l’investissement massif du Times dans son journalisme en l’utilisant pour créer des produits de substitution sans autorisation ni paiement ».
OpenAI s’est inscrit en faut contre les allégations du New York Times, en assurant « travaill[er] dur dans [son] processus de conception technologique pour soutenir les organisations de presse ». Le labo-start-up de Sam Altman a aussi indiqué avoir discuté avec « des dizaines de personnes » (8), dont la News Media Alliance (exNewspaper Association of America) qui a « applaudi » le procès intenté par le NYT (9).

« Source significative de revenus » (Le Monde)
Malgré ses approches au cas par cas avec la presse et ses premiers accords de partenariat, OpenAI n’échappera pas – à l’instar de Google et Facebook en leur temps – à rendre des comptes devant la justice. La presse, le livre ou encore le cinéma hésitent entre accord et procès. En Europe, Le Monde, El País et Die Welt ont préféré signer avec « ChatGPT » plutôt que de trouver un accord-cadre collectif via, par exemple en France, l’Alliance de la presse d’information générale (Apig). Le groupe Le Monde se dit satisfait de cet accord qui, selon ses dirigeants Louis Dreyfus et Jérôme Fenoglio (10), a « l’avantage de consolider [son] modèle économique en apportant une source significative de revenus supplémentaires ». @

Charles de Laubier

Le géant français du logiciel Dassault Systèmes a manqué l’occasion de se mesurer aux Gafam

Alors qu’un changement de gouvernance approche pour sa maison mère Dassault, la filiale Dassault Systèmes – numéro un français du logiciel de conception 3D – reste méconnue. « 3DS » (son surnom) est un rare géant européen qui aurait pu rivaliser avec les Gafam en s’adressant aussi au grand public.

Au 23 février 2024, la capitalisation boursière de l’éditeur français de logiciels Dassault Systèmes dépasse à peine les 57,8 milliards d’euros. La pépite du CAC40 est très loin des 1.000 à 3.000 milliards de dollars de capitalisation boursière de chacun des Gafam (Alphabet/Google, Meta/Facebook, Amazon, Apple et Microsoft). Quant aux cours de son action à la Bourse de Paris, elle a chuté de plus de 13 % à la suite de l’annonce, le 1er février, de prévisions décevantes du chiffre d’affaires attendu pour cette année 2024 : entre 6,35 et 6,42 milliards d’euros, en hausse de 8 % à 10 % par rapport à l’an dernier.

Une Big Tech méconnue des Français
Les analystes financiers s’attendaient à mieux. Depuis cette déconvenue, le cours de Bourse de Dassault Système a repris un peu du poil de la bête, mais a rechuté à partir du 9 février (1). Le fleuron français du numérique semble avoir du mal à convaincre les investisseurs, alors qu’il s’agit pourtant d’une entreprise en forte croissance et très rentable : près de 1 milliard d’euros de bénéfice net en 2022 (931,5 millions d’euros précisément), pour un chiffre d’affaires celle année-là de 5,66 milliards d’euros.
Dassault Systèmes est dirigé par Pascal Daloz depuis le 1er janvier, date à laquelle Bernard Charlès (photo)lui a confié la direction générale qu’il occupait depuis 2002 pour s’en tenir à la fonction de président du conseil d’administration après en avoir été PDG – DG de 1995 à 2023 et président du conseil d’administration depuis qu’il a remplacé en 2022 Charles Edelstenne (86 ans). Celui-ci est le fondateur de Dassault Systèmes en 1981, dont il est encore aujourd’hui le président d’honneur, tout en étant par ailleurs président de la holding de la famille Dassault GIMD (2) – sixième plus grande fortune de France, selon Challenges (3) – et président d’honneur et administrateur de Dassault Aviation, dont il fut le PDG (2000- 2013).

En quatre décennies, Dassault Systèmes – surnommé « 3DS » – est devenu un géant du numérique en étant pionnier de la conception en trois dimensions (3D) avec son logiciel Catia conçu à la fin des années 1970 chez Dassault Aviation pour la conception assistée par ordinateur d’aéronefs. Depuis, 3DS a déployé dans de nombreux secteurs industriels (aéronautique, défense, automobile, construction, énergie, biens de consommation, architecture, santé, …) ses logiciels de maquette numérique et de modélisation 3D, de gestion 3D du cycle de vie des produits (4), de prototypage virtuel et de « jumeaux numériques », appelés aussi « jumeaux virtuels ». Mais avec ses plus de 22.500 employés répartis dans plus de 130 pays, au service de plus de 300.000 clients dans une douzaine d’industries, force est de constater que la doyenne de la French Tech est méconnue du grand public. Autant les géants américains du Net ont acquis une notoriété auprès de tous les publics, autant Dassault Systèmes reste inconnu pour les particuliers. Avec l’ouverture de la réalité virtuelle au plus grand nombre, bien avant l’avènement des métavers que Meta Platforms (Facebook) tente de populariser depuis l’automne 2021, 3DS n’a pas saisi l’occasion d’adresser directement l’utilisateur final (5). Il y a bien de rares incursions auprès du public comme avec HomeByMe, une application d’aménagement intérieur en 3D pour particuliers – gratuite sur iOS (6) – et architectes (par abonnement, également utilisée par Ikea) pour créer des jumeaux virtuels associant vision à 360° et réalité augmentée. « La version web supporte un mode immersif basé sur webXR qui permet de concevoir l’aménagement en VR avec un casque », indique à Edition Multimédi@ David Nahon, le responsable de l’expérience immersive chez 3DS.
En plein engouement pour la réalité mixte (réalité virtuelle et réalité augmentée), que démocratisent Meta, HTC ou plus récemment Apple avec leurs casques respectifs Quest, Vive et Vision Pro, Dassault Systèmes reste éloigné de ces innovations grand public. Certes, le groupe fournit des briques logiciels 3D aux acteurs de la réalité virtuelle. Mais cela ne se voit pas. De plus, comme « les jumeaux virtuels sont une représentation du monde qui combine modélisation, simulation, données du monde réel et intelligence artificielle » (dixit 3DS), pourquoi ne verrait-on pas Dassault Systèmes s’emparer de l’IA générative pour développer un grand modèle de langage de type LLM (7) pour tous, comme les ChatGPT, Midjourney et autres Gemini ?

Objectif 2040 : des offres aux particuliers ?
Son président Bernard Charlès et son directeur général Pascal Daloz sont maintenant tournés vers un objectif à 2040, quitte à mettre aussi le savoir-faire de 3DS à portée de main directe du grand public ? « Notre prochain objectif est d’atteindre les consommateurs, les patients et les citoyens : en contribuant à la création d’un patrimoine numérique considérable (ce qui est aujourd’hui un facteur clé de compétitivité), nous ferons le lien entre nos clients et leurs propres clients », peut-on lire dans le dernier rapport annuel en date, publié en mars 2023. @

Charles de Laubier