Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet. Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés.

Exception de Text and Data Mining
Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur le 1er août 2024 du règlement européen sur l’intelligence artificielle – l’AI Act publié au JOUE du 12 juillet et applicable à partir du 2 août 2026 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles. En effet, l’article 53 et l’annexe XI de l’AI Act imposent, entre autres, aux fournisseurs de modèles d’IA à usage général (1) de mettre à disposition des informations sur les données utilisées pour l’entraînement de ces modèles, au moyen d’un document-type qui sera mis à disposition par le bureau de l’IA (AI Office). Ils doivent notamment indiquer comment ces données ont été obtenues et sélectionnées, ainsi que toutes les mesures prises pour Continuer la lecture

Le géant du e-commerce Amazon, fondé par Jeff Bezos, fête ses 30 ans et la 10e édition de ses « Prime Day »

C’est la fête à Amazon ! Créé dans un garage près de Seattle le 5 juillet 1994 par Jeff Bezos – proche de redevenir la personne la plus riche du monde –, le site web de vente en ligne Amazon a 30 ans. Devenu le numéro mondial du e-commerce, « Amazon.com, Inc. », coté en Bourse depuis 1997, s’est largement diversifié.

Cela fait trois ans ce 5 juillet que Jeff Bezos (photo) – né Jeffrey Preston Jorgensen (60 ans cette année) et adopté à l’âge de quatre ans par un émigré cubain (Miguel Bezos), avec lequel sa mère s’était remariée – a passé en 2021 les rênes de son empire Amazon à Andy Jassy. Celui-ci est depuis lors le second directeur général en 30 ans d’existence du site Internet de commerce en ligne, devenu un géant diversifié du numérique. C’est justement aussi ce 5 juillet que la firme au sourire – s’étirant de la lettre A au Z de son logo officiel depuis l’année 2000 – fête sa création par Jeff Bezos, le 5 juillet 1994, dans le garage d’une maison louée à Bellevue dans la banlieue de Seattle (Etat de Washington). Après avoir travaillé dans successivement une fintech (Fitel), une banque (Bankers Trust) puis un fonds spéculatif (D. E. Shaw & Co), le jeune ingénieur – diplômé huit ans plus tôt de l’université de Princeton (1986) – décide de cofonder avec sa femme MacKenzie Scott (rencontrée lors de son dernier emploi) une librairie en ligne pour vendre des livres.

De « plus grande librairie » à n°1 du e-commerce et diversifié
Son entreprise s’appelle d’abord « Cadabra » mais, certains comprenant « cadavre », il la rebaptise quelques mois après « Amazon », du nom du plus grand fleuve mondial qu’est l’Amazone (« Amazon » en anglais) en Amérique du Sud, correspondant bien à son ambition d’en faire « la plus grande librairie du monde ». Et en commençant par un « A », Amazon se retrouve en haut des listes de sites web ! Le site web Amazon.com est lancé un an après, le 16 juillet 1995. Le mois suivant, le président Jeff Bezos annonce la couleur : « World’s Largest Bookseller Opens on the Web ». Entre les disques compacts, le matériel informatique, les logiciels informatiques, les vidéos et les livres, le pionnier du e-commerce choisit d’abord de vendre des livres, en raison du très grand nombre de titres disponibles et de leurs prix modiques. Bingo ! Les ventes en ligne s’envolent. Il faut investir massivement pour faire face à la demande : moins de deux ans après le lancement d’Amazon.com, la société entre en Bourse, le 15 mai 1997, à 18 dollars l’action, sous le symbole « AMZN ». Elle est aujourd’hui à à 197 dollars (au 04-07-24), son plus haut niveau historique. Soit 1.094 % de croissance en Continuer la lecture

L’industrie du livre est appelée à mieux rémunérer les auteurs à l’ère du numérique et de l’IA

Le Syndicat national de l’édition (SNE) a tenu le 27 juin 2024 son assemblée générale annuelle. L’industrie du livre dans les Vingt-sept, dont la France, va passer sous les fourches caudines de la Commission européenne qui a lancé – via sa DG Connect – une enquête sur les contrats d’auteur.

Ce n’est pas anodin à l’ère du numérique et en pleine déferlante de l’intelligence artificielle : la DG Connect – direction générale des réseaux de communication, du contenu et de la technologie de la Commission européenne – a lancé jusqu’au 21 juin dernier une « enquête sur les pratiques contractuelles touchant le transfert du droit d’auteur et des droits voisins ». Si cette démarche porte sur le secteur de la création et de la culture en général au regard des artistes, elle concerne en particulier les maisons d’édition et leurs contrats avec les auteurs. Cette enquête menée en ligne s’est adressée d’abord directement aux auteurs et aux artistes des industries culturelles et créatives en Europe. Mais leurs organisations professionnelles et représentatives (1) ont pu y répondre aussi. L’objectif de cette étude est notamment de « recueillir des données et des preuves concernant les arrangements contractuels liés au transfert du droit d’auteur ou des droits voisins, et évaluer leurs effets, en particulier sur la capacité des créateurs à recevoir une rémunération équitable et la capacité des producteurs à utiliser efficacement leurs droits à long termes ». Les contrats d’édition posent problèmes et le partage de la valeur entre les éditeurs de livres et les auteurs laisse à désirer.

Papier, ebook, audio, streaming, IA, …
A l’occasion du troisième anniversaire de l’entrée en vigueur de la directive européenne « Droit d’auteur et droits voisins dans le marché unique numérique » de 2019, le Conseil des écrivains européens – European Writers’ Council (EWC) basé à Bruxelles – a publié début juin un rapport sur « les clauses contractuelles dans les accords d’édition dans le secteur du livre européen ». Conclusion de l’écrivaine allemande Nina George (photo), présidente d’honneur de l’EWC : « La transparence est l’engagement nécessaire pour l’équité ». Connue dans le monde entier comme l’auteure de « The Little Paris Bookshop », un best-seller international, Nina George – qui est aussi journaliste – rappelle que « la chaîne de valeur commence toujours par l’auteur et son manuscrit original, sans lequel il ne peut y avoir de publication ». Le manuscrit est le fondement de l’industrie du livre. Pourtant, souligne-t-elle à l’attention notamment des maisons d’édition qui contractualisent avec les auteurs : « Contrairement à un écrivain, les employés et les sous-traitants reçoivent un salaire fixe ou des honoraires liés au rendement, tandis que l’écrivain n’est jamais payé pour son travail. L’auteur ne reçoit qu’une part financière des revenus liés à l’utilisation […], entre Continuer la lecture

Parmi les dix milliardaires qui possèdent des médias en France, Daniel Kretinsky est le seul non-Français

Sur la dizaine de milliardaires qui font la pluie et le beau temps sur les médias en France, en tant qu’actionnaires – situation unique au monde –, un seul n’est pas Français : le Tchèque Daniel Kretinsky. Ce pro-Macron, conservateur, libéral et Européen, investit tous azimuts sur le marché français.

(Le 2 juillet 2024, soit huit jours après la parution de cet article dans Edition Multimédi@ n°324, l’armateur CMA CGM du milliardaire Rodolphe Saadé a finalisé l’acquisition d’Altice Media)

Plus que jamais, des pans entiers du paysage médiatique français sont aux mains de dix milliardaires (1), qui bénéficient en outre des aides d’Etat à la presse. Tous ont la nationalité française, sauf un : Le milliardaire Vincent Bolloré (groupe Bolloré) est Français et possède Vivendi/Canal+ /C8/CNews, Havas, Prisma Media/Voici/ Capital/Femme actuelle, et Lagardère/Europe 1/Le JDD/Hachette Livre. Le milliardaire Rodolphe Saadé (groupe CMA CGM) est Franco-Libanais et détient La Provence/Corse Matin, M6, Brut, et La Tribune/La Tribune Dimanche, et rachète Altice Media/BMFTV/RMC. Le milliardaire Bernard Arnault (groupe LVMH) est Français et contrôle Le Parisien/Aujourd’hui en France, Les Echos, Radio Classique, Challenges/Sciences et Avenir, OpinionWay et bientôt Paris Match. Le milliardaire Patrick Drahi (groupe Altice) est Franco-Israélo-Portugais et possède Altice Média/BFMTV/RMC qu’il est en train de vendre au milliardaire Rodolphe Saadé, après avoir vendu L’Express à Alain Weill (ex-PDG de Next RadioTV/BFMTV/RMC) et Libération cédé à Presse Indépendante.

Bolloré, CMA CGM, LVMH, Bouygues, Fiducial, …
Le milliardaire Xavier Niel (groupe Iliad-Free) est Français et est copropriétaire du groupe Le Monde/Le Monde/Télérama/Le Nouvel Obs/Télérama/La Vie/Le Monde diplomatique/Courrier international/LeHuffPost.fr, du groupe Nice-Matin/Nice-Matin/Var-Matin et Bestimage. La famille milliardaire Dassault (groupe Dassault/GIMD) est Française (Olivier Dassault est décédé en mars 2021) et possède le groupe Le Figaro/Le Figaro/Le Figaro Magazine/Le Figaro TV, Le Journal du Net/L’Internaute, Gala, TV Magazine. Le milliardaire Martin Bouygues (groupe Bouygues) est Français et possède TF1/TMC/TFX/TF1 Séries Films/LCI/Ushuaia TV/Histoire TV/TV Breizh, TF1+ (ex-MyTF1) et TFou Max. Le milliardaire François Pinault (holding Artémis dirigée par son fils François-Henri Pinault et détenteur de Kering/Yves Saint Laurent/Gucci et Christie’s) est Français et possède Le Point, Point de Vue, Le 1 hebdo et Tallandier Editions. Le milliardaire Christian Latouche (groupe Fiducial) est Français et possède Sud Radio, Lyon Capitale, Lyon TV. Quant au milliardaire Daniel Kretinsky (groupe EP/CMI), il est le seul de nationalité étrangère, à savoir Tchèque. Européen convaincu, il Continuer la lecture

L’ex-secrétaire d’Etat au Numérique Cédric O fait toujours polémique avec son « Mistral gagnant »

Le lobbying dans l’IA de l’ancien secrétaire d’Etat au Numérique, Cédric O, continue de faire polémique sur fond de soupçons de conflits d’intérêts. La Haute autorité pour la transparence de la vie publique (HATVP) avait exprimé des réserves en juin 2022. Et depuis ?

(Le 11 juin 2024, soit le jour suivant la publication de cet article dans le n°323 de Edition Multimédi@, Mistral AI annonçait une levée de fonds de 600 millions d’euros, et, le 17 juillet, la HATVP nous a indiqué qu’elle venait de « procéder au contrôle du respect des réserves » formulées en 2022 et qu’ « aucun élément ne permet de conclure que ces réserves auraient été méconnues », mais aucune communication officielle n’est prévue)

Cédric O, cofondateur et actionnaire de la start-up Mistral AI via sa propre société de conseil Neopunteo, est-il juge et partie – voire en conflits d’intérêts – vis-à-vis du gouvernement dont il fut secrétaire d’Etat au Numérique (mars 2019 à mai 2022) ? La question est lancinante mais légitime puisque cela concerne l’ancien secrétaire d’Etat au Numérique. Contactée par Edition Multimédi@, la Haute autorité pour la transparence de la vie publique (HATVP), présidée par Didier Migaud, nous a assuré qu’elle s’était bien prononcée dans sa délibération du 14 juin 2022 sur la demande que lui avait soumise Cédric O (photo) concernant notamment sa société Neopunteo. Cédric O a créé le 11 juillet 2022 Neopunteo, qui a notamment pour objet social la prise de participation, directe ou indirecte, dans toutes opérations financières, immobilières ou mobilières ou entreprises commerciales ou industrielles pouvant se rattacher à l’objet social, notamment par voie de création de sociétés nouvelles, le tout directement ou indirectement, pour son compte ou pour le compte de tiers », nous a précisé un porte-parole de la HATVP. Et celui-ci de nous confirmer en outre : « C’est la société Neopunteo qui a souscrit des parts au capital de la société Mistral AI ».

Neopunteo, société de conseil au bras long
C’est ainsi que l’ancien secrétaire d’Etat au Numérique a pu affirmer auprès de l’AFP en décembre dernier qu’ « [il] respect[ait] toutes les obligations demandées par la HATVP ». Cédric O a investi dans la start-up Mistral AI, créée le 28 avril 2023, dont il est coactionnaire et « conseiller-cofondateur » via sa société Nopeunteo qui était encore à l’état de projet au moment du rendu de l’avis contraignant du gendarme de la transparence de la vie publique. Comme Cédric O a occupé ses fonctions ministérielles du 31 mars 2019 au 20 mai 2022, il avait en effet l’obligation – dans les trois ans suivant la cessation de ses fonctions à Bercy, soit jusqu’en mai 2025 – de saisir la HATVP avant de s’engager professionnellement. La haute autorité se prononce sur la compatibilité ou pas de l’exercice d’une activité rémunérée au sein d’une entreprise avec les fonctions de membre du gouvernement exercées au cours des trois années précédant le début de l’activité. Objectif : éviter le risque de prise illégale d’intérêts, laquelle relève d’une infraction pénale passible de trois ans d’emprisonnement et d’une amende de 200.000 euros. Il s’agit aussi de lutter contre Continuer la lecture