Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet. Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés.

Exception de Text and Data Mining
Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur le 1er août 2024 du règlement européen sur l’intelligence artificielle – l’AI Act publié au JOUE du 12 juillet et applicable à partir du 2 août 2026 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles. En effet, l’article 53 et l’annexe XI de l’AI Act imposent, entre autres, aux fournisseurs de modèles d’IA à usage général (1) de mettre à disposition des informations sur les données utilisées pour l’entraînement de ces modèles, au moyen d’un document-type qui sera mis à disposition par le bureau de l’IA (AI Office). Ils doivent notamment indiquer comment ces données ont été obtenues et sélectionnées, ainsi que toutes les mesures prises pour Continuer la lecture

L’ex-secrétaire d’Etat au Numérique Cédric O fait toujours polémique avec son « Mistral gagnant »

Le lobbying dans l’IA de l’ancien secrétaire d’Etat au Numérique, Cédric O, continue de faire polémique sur fond de soupçons de conflits d’intérêts. La Haute autorité pour la transparence de la vie publique (HATVP) avait exprimé des réserves en juin 2022. Et depuis ?

(Le 11 juin 2024, soit le jour suivant la publication de cet article dans le n°323 de Edition Multimédi@, Mistral AI annonçait une levée de fonds de 600 millions d’euros, et, le 17 juillet, la HATVP nous a indiqué qu’elle venait de « procéder au contrôle du respect des réserves » formulées en 2022 et qu’ « aucun élément ne permet de conclure que ces réserves auraient été méconnues », mais aucune communication officielle n’est prévue)

Cédric O, cofondateur et actionnaire de la start-up Mistral AI via sa propre société de conseil Neopunteo, est-il juge et partie – voire en conflits d’intérêts – vis-à-vis du gouvernement dont il fut secrétaire d’Etat au Numérique (mars 2019 à mai 2022) ? La question est lancinante mais légitime puisque cela concerne l’ancien secrétaire d’Etat au Numérique. Contactée par Edition Multimédi@, la Haute autorité pour la transparence de la vie publique (HATVP), présidée par Didier Migaud, nous a assuré qu’elle s’était bien prononcée dans sa délibération du 14 juin 2022 sur la demande que lui avait soumise Cédric O (photo) concernant notamment sa société Neopunteo. Cédric O a créé le 11 juillet 2022 Neopunteo, qui a notamment pour objet social la prise de participation, directe ou indirecte, dans toutes opérations financières, immobilières ou mobilières ou entreprises commerciales ou industrielles pouvant se rattacher à l’objet social, notamment par voie de création de sociétés nouvelles, le tout directement ou indirectement, pour son compte ou pour le compte de tiers », nous a précisé un porte-parole de la HATVP. Et celui-ci de nous confirmer en outre : « C’est la société Neopunteo qui a souscrit des parts au capital de la société Mistral AI ».

Neopunteo, société de conseil au bras long
C’est ainsi que l’ancien secrétaire d’Etat au Numérique a pu affirmer auprès de l’AFP en décembre dernier qu’ « [il] respect[ait] toutes les obligations demandées par la HATVP ». Cédric O a investi dans la start-up Mistral AI, créée le 28 avril 2023, dont il est coactionnaire et « conseiller-cofondateur » via sa société Nopeunteo qui était encore à l’état de projet au moment du rendu de l’avis contraignant du gendarme de la transparence de la vie publique. Comme Cédric O a occupé ses fonctions ministérielles du 31 mars 2019 au 20 mai 2022, il avait en effet l’obligation – dans les trois ans suivant la cessation de ses fonctions à Bercy, soit jusqu’en mai 2025 – de saisir la HATVP avant de s’engager professionnellement. La haute autorité se prononce sur la compatibilité ou pas de l’exercice d’une activité rémunérée au sein d’une entreprise avec les fonctions de membre du gouvernement exercées au cours des trois années précédant le début de l’activité. Objectif : éviter le risque de prise illégale d’intérêts, laquelle relève d’une infraction pénale passible de trois ans d’emprisonnement et d’une amende de 200.000 euros. Il s’agit aussi de lutter contre Continuer la lecture

Fondé il y a 50 ans, le fabricant high-tech taïwanais Foxconn devient de plus en plus « intelligent »

Vous pensiez que le fabricant taïwanais Foxconn, célèbre fournisseur d’Apple pour ses iPhone, était tout juste bon à assembler des smartphones. Erreur : Hon Hai Precision Industry – son vrai nom – est devenu en 50 ans une Big Tech mondiale misant elle aussi sur l’intelligence artificielle.

(Le 5 juin, Hon Hai a annoncé une hausse de 22 % sur un an de son chiffre d’affaires en mai 2024)

1974-2024. Lorsque Terry Gou (photo) a créé Hon Hai Precision Industry Co, il y a 50 ans à Taïpei, capitale de Taïwan, il n’imaginait pas que son entreprise de fabrication de connecteurs électriques pour composants informatiques allait devenir le premier sous-traitant mondial dans la fabrication d’appareils électroniques grand public et le seul fabricant mondial – du moins jusqu’en 2012 – d’iPhone, d’iPad et d’iPod Touch pour le compte d’Apple, dont il est toujours le principal fournisseur. Mais la marque à la pomme n’est pas la seule à se faire fabriquer chez Foxconn – surnom de Hon Hai issu de sa première marque emblématique : il y a aussi Dell, Hewlett-Packard, IBM, Microsoft ou encore Cisco, du côté des Etats- Unis, ainsi que Huawei, Lenovo, Nintendo, Sony, Toshiba ou encore Xiaomi, du côté de l’Asie, auxquels il faut ajouter le finlandais HDM qui fait fabriquer pour la marque Nokia. Mais au-delà de son activité historique de sous-traitant arrivée à maturité, Hon Hai a su se diversifier.

Puces, serveurs IA, véhicules électriques, …
Foxconn s’est développé  dans les véhicules électriques (1), l’IA (notamment dans les serveurs de calcul haute performance pour IA générative), les semiconducteurs, la robotique et les satellites en orbite basse, en faisant jouer à plein son savoir-faire d’un demi-siècle dans les composants, les modules, l’assemblage de système, les circuits intégrés, et les logiciels. Sans oublier la fabrication de téléviseurs depuis 2012 avec l’électronicien japonais Sharp, dont Hon Hai détient 34,1 % du capital après une prise de contrôle en 2016. Résultat : en 2023, le groupe Hon Hai a dégagé un bénéfice net de 4,6 milliards d’euros (2) en réalisant un chiffre d’affaires de 199,7 milliards d’euros (3). Malgré une légère baisse de ces revenus annuels de -7 %, il s’agit tout de même du second record historique. Le PDG actuel, Young Liu, qui a succédé au fondateur Terry Gou (73 ans) le 1er juillet 2019, a revu en mars dernier ses prévisions 2024. Au lieu d’une « perspective neutre » pour cette année envisagée en novembre dernier lors de la précédente conférence des investisseurs, il s’attend maintenant à Continuer la lecture

Les médias en ligne redoutent la transformation du moteur de recherche Google en IA générative

Plus de 25 ans après sa création par Larry Page et Sergey Brin, le moteur de recherche en quasimonopole fait sa mue pour devenir une IA générative qui aura réponse à tout. Les sites web de presse pourraient être les victimes collatérales en termes d’audience. Le chat-search présentera moins de liens.

(après que des internautes aient signalé des résultats erronés générés par « AI Overviews », Google a annoncé le 30 mai des mesures correctrices, y compris en améliorant ses algorithmes) 

Google est mort, vive Google ! Mais cet enthousiasme ne sera sans doute pas partagé par les sites de médias en ligne qui tirent jusqu’à maintenant une part importante de leurs audiences de la consultation massive du moteur de recherche Google, lorsque ce n’est pas de son agrégateur d’actualités Google News. Depuis que Sundar Pichai, le PDG d’Alphabet, maison mère de Google, a annoncé le 14 mai – lors du Google I/O 2024 – la plus grande transformation du numéro un mondial du search en un moteur d’IA générative, les éditeurs de presse en ligne s’inquiètent pour la fréquentation de leurs sites Internet. L’objet de leurs craintes s’appelle « AI Overviews », la fonctionnalité la plus « intelligente » et disruptive jamais introduite dans Google depuis son lancement il y a un quart de siècle (1). La page de résultats de recherche ne sera plus présentée de la même manière : fini la liste impersonnelle de liens donnant accès à des sites web censés répondre, après avoir cliqué, à vos requêtes courtes et souvent par mots-clés ; place à une réponse détaillée et intelligible développée par l’IA générative elle-même, en fonction de ce que vous lui avez demandé en langage naturel, avec quelques liens seulement triés sur le volet en guise de sources venant étayer la réponse et/ou le raisonnement.

Divisée face aux Gafam, la presse française ne favorise pas la transparence sur les droits voisins

Carine Fouteau, nouvelle présidente et directrice de la publication Mediapart, pointe la non transparence de Google sur les sommes dues au titre des droits voisins de la presse. Mais elle s’en prend aussi « aux médias qui ont fait le choix du chacun pour soi en signant des accord individuels ».

C’est le premier coup de gueule de Carine Fouteau (photo), cette journaliste qui a succédé en mars 2024 à Edwy Plenel à la présidence de la Société éditrice de Mediapart. La nouvelle directrice de la publication de Mediapart a dénoncé fin avril « l’opacité des Gafam » en général et « l’absence de transparence » de Google en particulier. Le média d’investigation reproche notamment « les clauses de confidentialité imposées par Google » dans le cadre de l’accord que ce dernier a signé en octobre 2023 avec la Société des droits voisins de la presse (DVP).

L’Autorité de la concurrence a déjà sévi
Ce premier « accord majeur » de la Société DVP avec Google porte sur l’exploitation des contenus de presse par Google Actualités, Google Search et Google Discover sur la période allant d’octobre 2019 à décembre 2022. Le montant total ainsi collecté – pour le compte des 305 éditeurs (dont Edition Multimédi@) et agences de presse membres de cet organisme de gestion collective – n’a pas été divulgué. Et pour cause, Google impose à la Société DVP des clauses de confidentialité qui l’empêche de publier l’enveloppe globale obtenue dans le cadre de cet accord contractuel. La nouvelle patronne de Mediapart (1), dont la société éditrice est membre du conseil d’administration de la Société DVP, pointe ce défaut de transparence. Les sommes correspondantes à cette première période ont été versées en mars aux éditeurs membres, tandis que le média fondé par Edwy Plenel a décidé de ne pas encaisser la « substantielle somme » lui revenant. « La rétribution ne retourne pour autant pas à l’envoyeur (Google) : elle reste en réserve dans l’organisme de gestion collective, en attendant que le voile sur les chiffres soit levé », a précisé Carine Fouteau sur le site d’investigation.