Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet.

Exception de Text and Data Mining
Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés. Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur prochaine du règlement européen sur l’intelligence artificielle – l’AI Act dont le texte final (1) a été signé le 13 juin 2024 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles.

L’encrage à l’extrême droite du Parlementeuropéen hypothèque la réforme des télécoms

Les dernières élections européennes, donnant la part belle aux nationalistes, rendent incertaine la prochaine déréglementation des télécoms dans les Vingt-sept, alors que la Commission européenne doit réviser le code européen des communications électroniques d’ici décembre 2025.

Au plus tard le 21 décembre 2025, et tous les cinq ans par la suite, la Commission européenne est tenue de réexamine le fonctionnement de la directive de 2018 établissant le code des communications électroniques européen (CCEE). De même, d’ici cette même échéance, et tous les cinq ans là aussi, elle doit aussi réexaminer la portée du service universel, en vue de proposer la modification ou la redéfinition du champ d’application.

Déréglementer le marché des télécoms ?
A cela s’ajoute le projet de règlement télécoms, le Digital Networks Act (DNA) que pousse l’actuel commissaire européen au Marché intérieur, Thierry Breton (photo), pour la prochaine mandature. Autant dire que la prochaine Commission européenne, qui prendra ses fonctions fin 2024 en tenant compte de l’extrême-droitisation du Parlement européen depuis juin, pourrait faire de la réforme des télécoms l’un de ses priorités. Rappelons que le code des communications électroniques européen, adopté en 2018 (1), a modifié et regroupé quatre directives préexistantes adoptées en 2002 et modifiées en 2009, à savoir les directives « cadre », « autorisation », « accès » et « service universel ». Cette directive du code des télécoms est censée avoir été transposée par chacun des Vingt-sept au plus tard le 21 décembre 2020.
Or, selon les constatations de Edition Multimédi@, il y a encore à mi-2024 des trous dans la « raquette » européenne des télécoms : l’Italie, le Luxembourg, la Grèce et la Bulgarie sont les quatre Etats membres qui n’ont quasiment pas transposé la directive du code des communications électroniques européen, avec respectivement seulement deux, deux, deux et une mesure(s) prise(s) en compte au niveau national (2). En plus de ces mauvais élèves européens, force est aussi de constater que bon nombre d’autres Etats membres n’ont que partiellement transposé la directive du code des télécoms. Dès le 4 février 2021, la Commission européenne avait engagé une procédure d’infraction contre 24 Etats membres, dont la France pour défaut de transposition du code des communications électroniques (3), suivie le 23 septembre 2021 d’un avis motivé adressé à 18 d’entre eux (4). Puis, le 6 avril 2022, la Commission européenne a saisi la Cour de justice de l’Union européenne (CJUE) d’un recours contre dix Etats membres pour défaut de transposition complète dans le droit national du code des communications électroniques (5).

L’ex-secrétaire d’Etat au Numérique Cédric O fait toujours polémique avec son « Mistral gagnant »

Le lobbying dans l’IA de l’ancien secrétaire d’Etat au Numérique, Cédric O, continue de faire polémique sur fond de soupçons de conflits d’intérêts. La Haute autorité pour la transparence de la vie publique (HATVP) avait exprimé des réserves en juin 2022. Et depuis ?

(Le 11 juin 2024, soit le jour suivant la publication de cet article dans le n°323 de Edition Multimédi@, Mistral AI annonçait une levée de fonds de 600 millions d’euros, et, le 17 juillet, la HATVP nous a indiqué qu’elle venait de « procéder au contrôle du respect des réserves » formulées en 2022 et qu’ « aucun élément ne permet de conclure que ces réserves auraient été méconnues », mais aucune communication officielle n’est prévue)

Cédric O, cofondateur et actionnaire de la start-up Mistral AI via sa propre société de conseil Neopunteo, estil juge et partie – voire en conflits d’intérêts – vis-à-vis du gouvernement dont il fut secrétaire d’Etat au Numérique (mars 2019 à mai 2022) ? La question est lancinante mais légitime puisque cela concerne l’ancien secrétaire d’Etat au Numérique. Contactée par Edition Multimédi@, la Haute autorité pour la transparence de la vie publique (HATVP), présidée par Didier Migaud, nous a assuré qu’elle s’était bien prononcée dans sa délibération du 14 juin 2022 sur la demande que lui avait soumise Cédric O (photo) concernant notamment sa société Neopunteo.

Neopunteo, société de conseil au bras long
« Cédric O a créé le 11 juillet 2022 Neopunteo, qui a notamment pour objet social la prise de participation, directe ou indirecte, dans toutes opérations financières, immobilières ou mobilières ou entreprises commerciales ou industrielles pouvant se rattacher à l’objet social, notamment par voie de création de sociétés nouvelles, le tout directement ou indirectement, pour son compte ou pour le compte de tiers », nous a précisé un porte-parole de la HATVP. Et celui-ci de nous confirmer en outre : « C’est la société Neopunteo qui a souscrit des parts au capital de la société Mistral AI ». C’est ainsi que l’ancien secrétaire d’Etat au Numérique a pu affirmer auprès de l’AFP en décembre dernier qu’« [il] respect[ait] toutes les obligations demandées par la HATVP ». Cédric O a investi dans la start-up Mistral AI, créée le 28 avril 2023, dont il est coactionnaire et « conseiller-cofondateur » via sa société Nopeunteo qui était encore à l’état de projet au moment du rendu de l’avis contraignant du gendarme de la transparence de la vie publique.
Comme Cédric O a occupé ses fonctions ministérielles du 31 mars 2019 au 20 mai 2022, il avait en effet l’obligation – dans les trois ans suivant la cessation de ses fonctions à Bercy, soit jusqu’en mai 2025 – de saisir la HATVP avant de s’engager professionnellement. La haute autorité se prononce sur la compatibilité ou pas de l’exercice d’une activité rémunérée au sein d’une entreprise avec les fonctions de membre du gouvernement exercées au cours des trois années précédant le début de l’activité. Objectif : éviter le risque de prise illégale d’intérêts, laquelle relève d’une infraction pénale passible de trois ans d’emprisonnement et d’une amende de 200.000 euros. Il s’agit aussi de lutter contre tout conflit d’intérêt et d’édicter éventuellement des mesures à respecter pour prévenir les risques déontologiques. Depuis que Cédric O a quitté Bercy, la HATVP a publié quatre délibérations le concernant. La première délibération est celle datée de juin 2022 et concerne France Asie et Sista, ainsi que le projet de « créer une entreprise afin de réaliser des prestations de conseil » (1), Nopeunteo. Dans ses « réserves », la haute autorité a demandé à Cédric O de « respecter les règles déontologiques », de ne pas « faire usage ou de divulguer des documents ou renseignements non publics dont il aurait eu connaissance », et lui « suggère » de la saisir « avant de prendre pour client un organisme ou de prendre une participation dans une entreprise appartenant au secteur du numérique ».

La censure de TikTok en Nouvelle-Calédonie par son Haut-commissaire de la République semble illégale

Annoncée par le Premier ministre le 15 mai 2024, la décision sans précédent de bloquer TikTok en Nouvelle-Calédonie est attaquée en justice par deux organisations et des Néo-Calédoniens. Le 21 mai, la haute juridiction administrative a donné 24h au gouvernement pour se justifier.

Louis Le Franc (photo de gauche) est le haut-commissaire de la République en Nouvelle-Calédonie. En tant que représentant de l’Etat français de cette collectivité sui generis (ni département d’outre-mer ni territoire d’outre-mer) située en Océanie, et à ce titre délégué du gouvernement représentant le Premier ministre Gabriel Attal (photo de droite)et chacun des ministres français, ce « préfet hors-classe » (le grade le plus élevé) a la charge des intérêts nationaux et assure la direction des services de l’Etat sur le territoire. Il est en outre préfet de la zone de défense de Nouvelle-Calédonie et Wallis-et-Futuna (1).

La liberté d’expression, victime collatérale
C’est à lui qu’est revenue la responsabilité de mettre à exécution l’interdiction de TikTok dans l’archipel secoué quelques jours à partir du 13 mai par des émeutes et des violences, lesquelles sont en lien avec une réforme constitutionnelle visant à élargir le corps électoral, projet contesté par les indépendantistes. Le censure du réseau social du chinois ByteDance (2) a été annoncée le 15 mai par le Premier ministre Gabriel Attal, le haut-commissaire Louis Le Franc ayant de son côté « instauré un couvre-feu et interdit TikTok ». Ce blocage, bien que la décision concernant le réseau social n’avait pas encore été formalisée par un texte – est effectif uniquement sur les smartphones (dixit le cabinet du Premier ministre), mis en œuvre par l’Office des postes et télécommunications de Nouvelle-Calédonie (OPT-NC). C’est d’autant plus facile que cet établissement public gère lui-même l’unique opérateur mobile de l’archipel, Mobilis.

TikTok menacé d’être banni des Etats-Unis et d’Europe, sa maison mère chinoise ByteDance contre-attaque

Alors que Joe Biden aux Etats-Unis et Ursula von der Leyen en Europe rêvent d’évincer de leur marché respectif TikTok, le réseau social des jeunes, sous des prétextes de « sécurité nationale » (le syndrome « Huawei »), sa maison mère chinoise ByteDance compte bien se battre pour obtenir justice.

(le 14 mai 2024, dans le cadre de l’état d’urgence décrété le 15 mai en Nouvelle-Calédonie, le Premier ministre français Gabriel Attal a annoncé l’interdiction de TikTok dans cet archipel franco-kanak d’Océanie, mesure sans précédent pour des raisons, selon le gouvernement, de « terrorisme ») 

Aux Etats-Unis, Joe Biden a signé le 24 avril la loi obligeant le groupe chinois ByteDance de se séparer de sa filiale américaine TikTok « sous 270 jours » (neuf mois), soit d’ici février 2025. Le chinois a saisi le 7 mai la justice pour demander la révision de ce « Ban Act » qu’il juge inconstitutionnelle. Au Congrès américain, la Chambre des représentants et le Sénat avaient adopté cette loi respectivement le 13 mars et le 23 avril. Le président des Etats-Unis avait aussitôt déclaré qu’il signerait cette loi (1).
En Europe, Ursula von der Leyen a déclaré le 29 avril que « n’est pas exclu » le bannissement de TikTok de l’Union européenne. La présidente de la Commission européenne a lancé sa menace de Maastricht lors d’un débat de candidats à l’élection européenne coorganisé par le journal Politico, après qu’un modérateur ait fait référence au sort réservé à TikTok aux Etats-Unis si la firme de Haidian (nord-ouest de Pékin) ne vendait sa filiale américaine. Le réseau social des jeunes férus de vidéos courtes et musicales est donc frappé du syndrome « Huawei » – géant chinois des équipements télécoms déjà mis à l’écart par des pays occidentaux sous les mêmes prétextes de « risque pour la sécurité nationale » (2) et d’accusation sans preuves de « cyber espionnage » (3). Déjà, Washington (depuis décembre 2022) et Bruxelles (depuis février 2023) ont interdit à leurs employés et fonctionnaires d’utiliser TikTok sur leurs smartphones professionnels.

Etats-Unis+Europe : 300 millions de tiktokeurs
L’application TikTok, lancée à l’automne 2016 et boostée par l’absorption en août 2018 de sa rivale Musical.ly rachetée par ByteDance en novembre 2017, dépasse aujourd’hui la barre des 1,5 milliard d’utilisateurs dans le monde, dont 170 millions aux Etats-Unis et 135 millions en Europe. TikTok est devenu en sept ans d’existence le cinquième plus grand réseau social au monde, derrière Facebook (3 milliards d’utilisateurs), YouTube (2,5 milliards), WhatsApp (2 milliards) et Instagram (2 milliards). S’il devait être banni des Etats-Unis et d’Europe, son audience chuterait de 305 millions de tiktokeurs au total – soit une perte de près de 20 % de sa fréquentation. Le chiffre d’affaires en serait sérieusement entamé pour sa maison mère ByteDance, cofondée en 2012 par Zhang Yiming, avec Liang Rubo (leurs photos en Une) devenu PDG fin 2021 (le premier se consacrant à la « stratégie à long terme »).