Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet. Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés.

Exception de Text and Data Mining
Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur le 1er août 2024 du règlement européen sur l’intelligence artificielle – l’AI Act publié au JOUE du 12 juillet et applicable à partir du 2 août 2026 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles. En effet, l’article 53 et l’annexe XI de l’AI Act imposent, entre autres, aux fournisseurs de modèles d’IA à usage général (1) de mettre à disposition des informations sur les données utilisées pour l’entraînement de ces modèles, au moyen d’un document-type qui sera mis à disposition par le bureau de l’IA (AI Office). Ils doivent notamment indiquer comment ces données ont été obtenues et sélectionnées, ainsi que toutes les mesures prises pour Continuer la lecture

L’industrie du livre est appelée à mieux rémunérer les auteurs à l’ère du numérique et de l’IA

Le Syndicat national de l’édition (SNE) a tenu le 27 juin 2024 son assemblée générale annuelle. L’industrie du livre dans les Vingt-sept, dont la France, va passer sous les fourches caudines de la Commission européenne qui a lancé – via sa DG Connect – une enquête sur les contrats d’auteur.

Ce n’est pas anodin à l’ère du numérique et en pleine déferlante de l’intelligence artificielle : la DG Connect – direction générale des réseaux de communication, du contenu et de la technologie de la Commission européenne – a lancé jusqu’au 21 juin dernier une « enquête sur les pratiques contractuelles touchant le transfert du droit d’auteur et des droits voisins ». Si cette démarche porte sur le secteur de la création et de la culture en général au regard des artistes, elle concerne en particulier les maisons d’édition et leurs contrats avec les auteurs. Cette enquête menée en ligne s’est adressée d’abord directement aux auteurs et aux artistes des industries culturelles et créatives en Europe. Mais leurs organisations professionnelles et représentatives (1) ont pu y répondre aussi. L’objectif de cette étude est notamment de « recueillir des données et des preuves concernant les arrangements contractuels liés au transfert du droit d’auteur ou des droits voisins, et évaluer leurs effets, en particulier sur la capacité des créateurs à recevoir une rémunération équitable et la capacité des producteurs à utiliser efficacement leurs droits à long termes ». Les contrats d’édition posent problèmes et le partage de la valeur entre les éditeurs de livres et les auteurs laisse à désirer.

Papier, ebook, audio, streaming, IA, …
A l’occasion du troisième anniversaire de l’entrée en vigueur de la directive européenne « Droit d’auteur et droits voisins dans le marché unique numérique » de 2019, le Conseil des écrivains européens – European Writers’ Council (EWC) basé à Bruxelles – a publié début juin un rapport sur « les clauses contractuelles dans les accords d’édition dans le secteur du livre européen ». Conclusion de l’écrivaine allemande Nina George (photo), présidente d’honneur de l’EWC : « La transparence est l’engagement nécessaire pour l’équité ». Connue dans le monde entier comme l’auteure de « The Little Paris Bookshop », un best-seller international, Nina George – qui est aussi journaliste – rappelle que « la chaîne de valeur commence toujours par l’auteur et son manuscrit original, sans lequel il ne peut y avoir de publication ». Le manuscrit est le fondement de l’industrie du livre. Pourtant, souligne-t-elle à l’attention notamment des maisons d’édition qui contractualisent avec les auteurs : « Contrairement à un écrivain, les employés et les sous-traitants reçoivent un salaire fixe ou des honoraires liés au rendement, tandis que l’écrivain n’est jamais payé pour son travail. L’auteur ne reçoit qu’une part financière des revenus liés à l’utilisation […], entre Continuer la lecture

Divisée face aux Gafam, la presse française ne favorise pas la transparence sur les droits voisins

Carine Fouteau, nouvelle présidente et directrice de la publication Mediapart, pointe la non transparence de Google sur les sommes dues au titre des droits voisins de la presse. Mais elle s’en prend aussi « aux médias qui ont fait le choix du chacun pour soi en signant des accord individuels ».

C’est le premier coup de gueule de Carine Fouteau (photo), cette journaliste qui a succédé en mars 2024 à Edwy Plenel à la présidence de la Société éditrice de Mediapart. La nouvelle directrice de la publication de Mediapart a dénoncé fin avril « l’opacité des Gafam » en général et « l’absence de transparence » de Google en particulier. Le média d’investigation reproche notamment « les clauses de confidentialité imposées par Google » dans le cadre de l’accord que ce dernier a signé en octobre 2023 avec la Société des droits voisins de la presse (DVP).

L’Autorité de la concurrence a déjà sévi
Ce premier « accord majeur » de la Société DVP avec Google porte sur l’exploitation des contenus de presse par Google Actualités, Google Search et Google Discover sur la période allant d’octobre 2019 à décembre 2022. Le montant total ainsi collecté – pour le compte des 305 éditeurs (dont Edition Multimédi@) et agences de presse membres de cet organisme de gestion collective – n’a pas été divulgué. Et pour cause, Google impose à la Société DVP des clauses de confidentialité qui l’empêche de publier l’enveloppe globale obtenue dans le cadre de cet accord contractuel. La nouvelle patronne de Mediapart (1), dont la société éditrice est membre du conseil d’administration de la Société DVP, pointe ce défaut de transparence. Les sommes correspondantes à cette première période ont été versées en mars aux éditeurs membres, tandis que le média fondé par Edwy Plenel a décidé de ne pas encaisser la « substantielle somme » lui revenant. « La rétribution ne retourne pour autant pas à l’envoyeur (Google) : elle reste en réserve dans l’organisme de gestion collective, en attendant que le voile sur les chiffres soit levé », a précisé Carine Fouteau sur le site d’investigation.

Tout en restant hyperlocal face aux GAFAM, Ouest-France veut devenir un média national

Toujours premier quotidien papier en France, Ouest-France – qui fêtera ses 80 ans l’an prochain – est aussi la première plateforme numérique média. Son indépendance est assurée depuis 33 ans, mais ses défis à relever se multiplient : maintenir sa rentabilité, se développer au niveau national, faire face aux GAFAM et à l’IA. « On est confronté à la pression du marché. Après les GAFAM qui se sont mis dans notre nid par la stratégie du coucou, il y a l’IA. Comment tracer [identifier, ndlr] ce qui est produit par de l’intelligence artificielle ? Comment relever le défi du droit d’auteur qui va être un chantier majeur. Il y a aussi un défi de la vitesse : l’IA va accélérer la machine. Avec les réseaux sociaux, on a eu une industrialisation de la distribution. Avec l’IA, on va avoir une industrialisation des contenus », a expliqué David Guiraud (photo) devant l’Association des journalistes médias (AJM) le 5 octobre dernier à Paris. Depuis près de dix ans, il est président du conseil de surveillance de la société Ouest-France, et a été élu en 2020 président de l’Association pour le soutien des principes de la démocratie humaniste (ASPDH), laquelle contrôle la holding Sipa (Société d’investissements participations) – communément appelée Sipa Ouest-France. « On se retrouve déjà avec un flot de contenus et face à une concurrence énorme. Par exemple, le projet “Autonews” (1) propose avec de l’IA de générer rapidement un journal sur mesure selon différentes options (actualités, tons d’écritures, images, …). Le risque est que l’on soit pris dans cet sorte de tsunami qui nous empêche de faire notre travail », s’inquiète celui qui a dirigé les groupes Le Monde (2008-2011) et Les Echos (1994-2008). L’ASPDH, l’antidote aux « médias anti-sociaux » David Guiraud (68 ans) va même plus loin dans son diagnostic : « La tension est très forte dans notre métier face à ce que j’appelle les médias anti-sociaux que sont les plateformes – Facebook et autres – qui créent cette dépendance addictive et qui ont hacké le cerveau des gens. Faut lire l’”Apocalypse cognitive” (2) : on comprend ce qui se passe ; c’est ça le sujet. A l’ASPDH, on réfléchit à comment continuer à faire un journal profitable, de qualité, face à ce monde là ». Cela commence par la charte d’Ouest-France où le groupe demande à chacun de ses 1.000 journalistes, dont 702 (équivalent temps plein) au quotidien Ouest-France de « dire sans nuire, montrer sans choquer, témoigner sans agresser, dénoncer sans condamner ». « Ce qui est à l’inverse de ce que les GAFAM nous poussent à faire en mettant des titres chocs qui aboutissent à une fatigue informationnelle et une déconnexion. Lorsqu’un journaliste est embauché à Ouest-France, on lui demande de signer la charte », précise David Guiraud (3). Ouest-France se renforce à Paris et bientôt à Bruxelles Présent à ses côtés devant l’AJM, François-Xavier Lefranc (photo ci-contre) – officiellement président depuis le 7 octobre du directoire de la société Ouest-France (vaisseau amiral de la holding Sipa) et directeur de la publication du quotidien régional – formule aussi des griefs envers les géants du Net : « La grande réussite des GAFAM est de nous avoir fait perdre confiance en nous. Alors que c’est hypermoderne le territoire », a-t-il assuré. Il s’en est pris aussi au système médiatique français très parisien et jacobin : « Ce qui m’a toujours insupporté, a confié François-Xavier Lefranc, c’est l’histoire de la PQN (4) et de la PQR (5) qui laissait entendre que les vrais et grands journaux étaient à Paris et donc nationaux, et que tous les autres étaient… – souvent dit avec [condescendance, ndlr].Et il faut se battre contre ça. […] Cette phrase “La presse nationale ne sait pas tout mais dit ce qu’elle sait et la presse locale sait tout mais ne dit rien” est scandaleuse ». OuestFrance assure prouver le contraire, le quotidien régional étant toujours – avec ses 610.000 tirages papier par numéro en moyenne, selon l’APCM (ex-OJD) – l’incontesté premier quotidien en France, loin devant Le Monde (482.754) et Le Figaro (354.163). « Bien qu’en baisse [- 2,52 % sur un an, ndlr], le papier n’est pas déjà mort et garde un rôle important. Le print (6) pèse encore plus de 83 % de notre chiffre d’affaires [sur 317 millions d’euros en 2022 pour le seul quotidien, ndlr] et nous sommes la première plateforme numérique française en audience. Le pari est quand même compliqué », a indiqué François-Xavier Lefranc (« FXL »). Sipa possède cinq quotidiens imprimés : Ouest-France, PresseOcéan, Le Maine Libre, Le Courrier de l’Ouest (7) et La Presse de la Manche. Le groupe a réalisé 560 millions d’euros de chiffre d’affaires en 2022, en dégageant une marge brute d’exploitation de 30 millions d’euros. Le paradoxe de Ouest-France, comme pour la plupart des médias, est que son avenir dépend des GAFAM, lesquels contribuent massivement à son audience numérique – générée sur les moteurs de recherche, les réseaux sociaux et les agrégateurs d’actualités (8). Sur Google News, Edition Multimédi@ a d’ailleurs constaté que Ouest-France publie non seulement des articles de sa rédaction mais aussi – sous sa rubrique « Ouest-France Shopping » – des articles publicitaires auxquels « la rédaction n’a pas participé » (9). Grâce en grande partie aux GAFAM, Ouest-france.fr peut ainsi se targuer d’être la première plateforme numérique en France avec 150,1 millions de visites (fixes et mobiles) au mois de septembre, selon l’APCM. Et ce, devant Leboncoin, Franceinfo, Le Figaro, BFMTV, et Le Monde. Comme 75 % de cette audience en ligne se fait hors de l’Ouest, cela propulse Ouest-France au niveau national. « Notre identité est en train de changer, confirme FXL. OuestFrance reste un journal régional, de territoires, mais l’on sera bientôt davantage lu par des gens situés hors de l’Ouest. Nous nous développons sur les questions de maritime, de climat, d’alimentation, de santé, d’économie du numérique, et d’Europe où nous devons faire plus. Je rêve que l’on ait une rédaction à Bruxelles. A terme, il le faudra. Nous venons de renforcer notre rédaction de Paris avec Cyril Petit ». Cet ancien du Journal du Dimanche(JDD) a été nommé en mai « rédacteur en chef délégué chargé du développement éditorial national de Ouest-France ». De là à ce que Ouest-France concurrence Le Monde, Le Figaro ou Le Parisien à l’échelon national, il n’y a qu’un pas. Cyril Petit a pour mission de positionner encore plus Ouest-France comme « un média incontournable au niveau national », avec aussi un traitement européen et international renforcé. « De Paris, on se rend rapidement auprès des institutions européennes. Et Outre-mer, nous avons des correspondants dans chaque territoire ultramarin où nous doublerons notre force en 2024, y compris à Mayotte », annonce FXL. Le groupe Ouest-France a déjà une dimension nationale avec deux sites web nationaux gratuits : Actu.fr, qui s’appuie sur les 90 hebdomadaires de Publi hebdos, filiale de Sipa et premier éditeur de la presse hebdomadaire française. « C’est une filiale très profitable, se félicite David Guiraud. Elle a créé Actu.fr qui cartonne, avec une audience qui est dans le “Top 10” des audiences numériques de la presse ». Selon l’APCM, tout médias confondus, Actu.fr est en effet en 10e position du classement des plateformes en ligne en France avec 100,2 millions de visites en septembre. 20minutes.fr, qui est édité par 20 Minutes France, société détenue à parts égales (50 %) par Sipa et par Rossel, groupe de presse belge éditeur des quotidiens Le Soir et La Voix du Nord. « C’est un laboratoire très intéressant pour nous. 20 minutes est très puissant, notamment auprès des jeunes, se félicite David Guiraud. 20minutes.fr affiche 81,1 millions de visites en septembre au compteur « APCM », soit la 12e positions, dépassé par… Actu.fr. Objectif : pourquoi pas les 300.000 abonnés numériques « Comment faire du gratuit, comme 20 Minutes, qui ne soit de la recherche du clic à tout prix : la voie est étroite, convient David Guiraud. Sur le numérique, on va continuer à mettre le paquet pour qu’il y ait un engagement du lecteur pour le prix payé. Sinon, la valeur perçue disparaît comme sur les sites gratuits. Je suis d’ailleurs opposé à être présent sur les kiosques numériques, à part ePresse (10) ». Et FXL d’abonder : « Notre modèle économique, c’est l’abonnement, pas l’audience ». Ouest-France totalise à ce jour 240.000 abonnés numériques toutes formules confondues, dont près de 55.000 à la version numérique du journal (11). Mais pour la direction, ce n’est « pas suffisant ». Et FXL d’ajouter : « C’est une bataille de long terme. L’objectif, c’est 300.000, 400.000 voire 500.000 abonnés numériques ». @

Charles de Laubier

La Société des droits voisins de la presse (DVP) peine à négocier avec les plateformes numériques

Créée il y a près de deux ans et épaulée par la Sacem et le CFC, la Société des droits voisins de la presse (DVP) – présidée par Jean-Marie Cavada – négocie difficilement avec une dizaine de plateformes numériques, dont Google, Meta, Microsoft, Twitter, LinkedIn ou Onclusive (ex-Kantar Media). (Cet article a été publié dans EM@ n°304 du 24 juillet. Le 2 août, après d’autres médias, l’AFP a saisi la justice contre Twitter, rebaptisé X, pour refus de négocier) Depuis sa création fin octobre 2021, il y a près de deux ans, la société de gestion collective des droits voisins de la presse DVP (dont la dénomination est Société des droits voisins de la presse) reste assez discrète sur l’état d’avancement de ses négociations avec une dizaine de grandes plateformes numériques. Il s’agit de tenter de trouver des accords de rémunération de la presse lorsque des articles en ligne sont exploités par ces plateformes. A ce jour, la Société DVP représente – au titre des droits voisins de la presse – 238 éditeurs et 46 agences de presse, soit plus de 624 publications de presse.

4 ans après la loi du 24 juillet 2019… La Société DVP, présidée par Jean-Marie Cavada (photo), a en fait confié les négociations à deux organismes reconnus : la Sacem (1) pour les plateforme numériques dites B2C (orientées consommateurs) telles que Google, Meta, Microsoft, LinkedIn ou encore Twitter ; le CFC (2) pour les plateformes numériques dites B2B (orientées vers les entreprises et professionnels) telles que les prestataires de veille média comme Onclusive (ex-Kantar Media), Cision (ex- L’Argus de la presse) ou encore des crawlers (spécialistes scannant le Web pour leurs clients). La Sacem assure en outre la gestion de la société DVP, dont la directrice générale gérante est Caroline Bonin, la directrice juridique de la Sacem. Les négociations pour obtenir « une juste rémunération », et d’en obtenir le paiement, ont commencé à partir du printemps 2022, mais rien n’a filtré jusqu’à maintenant – les négociations avant tout accord d’autorisation étant soumises à une stricte règle de confidentialité. « Une dizaine de négociations sont ainsi en cours, à des stades variés, notamment en raison de discussions juridiques complexes sur l’éligibilité au droit voisin de la presse de certaines publications, que les redevables du droit voisin contestent pour diminuer le montant de la rémunération à acquitter et que DVP défend, en application de la loi et dans l’esprit de la gestion collective », a signalé le 31 mai dernier la Société DVP à ses éditeurs membres (parmi lesquels Edition Multimédi@). Certaines négociations ont fait l’objet de plusieurs projets de contrats et offres financières, mais aucune n’a abouti à ce stade malgré des réunions hebdomadaires avec les plus importants acteurs du Net. Le conseil d’administration de la Société DVP – composé de 16 membres (dont 12 éditeurs de presse et 3 agences de presse) et présidé par Jean-Marie Cavada – oeuvre pour obtenir « la meilleure rémunération possible pour tous ses membres et pour toutes les exploitations depuis l’entrée en vigueur de la loi reconnaissant le droit voisin de la presse [du 24 juillet 2019, ndlr], dans le respect des critères posés par cette loi, que les redevables du droit voisin contestent encore ». La loi française « Droit voisin de la presse » du 24 juillet 2019 modifiant le code de la propriété intellectuelle (3), pourtant conforté par l’Autorité de la concurrence (ADLC) qui a prononcé le 9 avril 2020 des injonctions à l’encontre des géants du Net (dont Google) rechignant à négocier, doit encore être appliquée – quatre ans après sa promulgation ! Le 21 juin 2022, l’ADLC a adopté une décision mettant fin à la procédure initiée contre Google et acceptant ses engagements modifiés. Mais des négociations traînent toujours, y compris avec d’autres GAFAM. « Alors que les éditeurs attendent avec impatience la mise en oeuvre de la loi de juillet 2019, le conseil d’administration de DVP est déterminé à signer au plus tôt des accords de licence tout en s’assurant que les fondements du droit voisin soient respectés afin d’en assurer la pérennité », a assuré fin mai la société de gestion collective. Il y a selon elle « urgence économique ». Un travail de définition des règles de répartition entre les membres a déjà commencé, afin de leur verser rapidement les redevances qui leur revient, dès que le premier contrat sera signé avec la première plateforme. Mais la Société DVP ne cache pas « les difficultés de négociation avec certains grands acteurs du numérique » et pourrait profiter de la date anniversaire de la loi «Droits voisins de la presse » – le 24 juillet donc – pour communiquer et « alerter largement les pouvoirs publics quant à la difficulté de concrétiser l’existence de ce droit ».

Pas encore de redevances, mais des adhésions Les comptes de l’exercice 2022 de la Société DVP (4) affichent, dans ce contexte de négociations et de bras de fer, des recettes uniquement constituées des frais d’admission versés par les nouveaux membres, pour un total de 76.918 euros. Les dépenses, elles, s’élèvent à 48.330 euros (sites web, vote électronique, commissaire au compte, dépôt de la marque). Ce premier bilan (5) et le budget prévisionnel 2023 (6) expliquent l’absence de DVP dans le rapport annuel 2023 de la commission de contrôle des organismes de gestion des droits d’auteur et des droits voisins (CCOGDA), publié le 26 juin dernier par la Cour des comptes (7). @

Charles de Laubier