Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet. Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés.

Exception de Text and Data Mining
Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur le 1er août 2024 du règlement européen sur l’intelligence artificielle – l’AI Act publié au JOUE du 12 juillet et applicable à partir du 2 août 2026 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles. En effet, l’article 53 et l’annexe XI de l’AI Act imposent, entre autres, aux fournisseurs de modèles d’IA à usage général (1) de mettre à disposition des informations sur les données utilisées pour l’entraînement de ces modèles, au moyen d’un document-type qui sera mis à disposition par le bureau de l’IA (AI Office). Ils doivent notamment indiquer comment ces données ont été obtenues et sélectionnées, ainsi que toutes les mesures prises pour Continuer la lecture

Acteurs de l’IA, la Cnil vous adresse ses premières recommandations : à vous de jouer !

La Commission nationale de l’informatique et des libertés (Cnil) a publié le 8 avril 2024 sept premières fiches « pour un usage de l’IA respectueux des données personnelles ». D’autres sont à venir. Ces règles du jeu, complexes, sont les bienvenues pour être en phase avec le RGPD et l’AI Act.

Par Anne-Marie Pecoraro*, avocate associée, UGGC Avocats

L’intelligence artificielle (IA) conduit à questionner de manière plus exigeante et approfondie la protection des données personnelles. Les principes fondateurs du RGPD (1) doivent non seulement être pleinement rappelés et appliqués, mais ils doivent même l’être de manière plus dynamique et exigeante. Un exemple : des données qui auraient précédemment pu être considérées pseudonymisées ou même anonymisées, pourront faire l’objet de calculs et de recoupements massifs, qui pourraient aboutir à identifier à nouveau les personnes, grâce à l’utilisation de l’IA.

Sept premières fiches pratiques
L’entraînement des IA appelle des données personnelles comme l’image et la voix des personnes, d’une quantité sidérale sans précédent. Il appartient aux entreprises et organisations nationales et internationales de procéder à la mise en conformité avec l’AI Act, lequel a été adopté 13 mars 2024 par le Parlement européen (2). Parallèlement et le même jour en France, la commission de l’IA – installée depuis septembre 2023 auprès du Premier ministre – a remis au président de la République son rapport (3) qui recommande notamment un assouplissement des contraintes liées à l’utilisation, par l’IA, de données personnelles. Cette commission IA appelle à « transformer notre approche de la donnée personnelle pour protéger tout en facilitant l’innovation au service de nos besoins ».

IA génératives, contrefaçons, exceptions au droit d’auteur et opt out : où se situent les limites ?

Adopté par les eurodéputés le 13 mars 2024, l’AI Act – approuvé par les Etats membres en décembre 2023 – va être définitivement voté en plénière par le Parlement européen. Mais des questions demeurent, notamment sur les limites du droit d’auteur face aux intelligences artificielles génératives.

Par Vanessa Bouchara, avocate associée, et Claire Benassar, avocate collaboratrice, Bouchara & Avocats.

Si l’utilisation des intelligences artificielles (1) est désormais largement répandue, ces techniques et technologies capables de simuler l’intelligence humaine restent au cœur de nombreux questionnements – tant éthiques que juridiques. Alors même que le projet de règlement européen visant à encadrer l’usage et la commercialisation des intelligences artificielles au sein de l’Union européenne, dit AI Act (2), a été adopté en première lecture le 13 mars 2024 par le Parlement européen (3), c’est l’intelligence artificielle générative – IAg, AIG ou GenAI – qui est aujourd’hui sujette à controverse.

Droit d’auteur et procès en contrefaçon
A l’origine du débat les concernant, il importe de rappeler que les systèmes d’IAg ont pour particularité de générer du contenu (textes, images, vidéos, musiques, graphiques, etc.) sur la base, d’une part, des informations directement renseignées dans l’outil par son utilisateur, et, d’autre part et surtout, des données absorbées en amont par l’outil pour enrichir et entraîner son système. Les systèmes d’intelligence artificielle générative sont ainsi accusés d’être à l’origine d’actes de contrefaçon, et pour cause : l’ensemble des données entrantes dont ils se nourrissent peuvent potentiellement être protégées par des droits de propriété intellectuelle. Où se situe donc la limite entre l’utilisation licite de ces données et la caractérisation d’un acte de contrefaçon ? Si, par principe, la reproduction de telles données est interdite, le droit européen semble désormais entrouvrir la possibilité d’utiliser celles-ci dans le seul cadre de l’apprentissage de l’IAg.

Le smart contract est déjà là : osons la vitesse sans la précipitation, tant en France qu’en Europe

Le Data Act, en vigueur depuis le 11 janvier 2024, est le premier texte européen à prendre en compte les « smart contracts ». C’est l’occasion de revenir sur ces « contrats à exécution automatique conditionnelle » qui avaient fait l’objet l’an dernier d’un livre blanc paru en France (1).

Par Fabrice Lorvo*, avocat associé, FTPA

La révolution numérique poursuit son œuvre de digitalisation, notamment de l’économie. Son développement ultime va probablement aboutir d’abord à la dématérialisation des actifs (à savoir les produits, les services et la monnaie permettant de les échanger), puis à l’automatisation de leurs échanges. Pour ce faire, l’outil idoine est connu sous l’appellation anglo-saxonne de « smart contract » (2) Il s’agit d’un protocole informatique organisant l’échange automatique d’actifs dématérialisés enregistré sur une blockchain.

Les smart contrats devancent la loi
Nous partons du postulat que cet outil – qui peut être traduit en français par « contrat à exécution automatique conditionnelle » (3) – a un très bel avenir et qu’il rencontrera la faveur des consommateurs, en raison de son apparence de facilité et de rapidité. Le smart contract est donc une nouvelle page blanche de notre histoire économique.
Les enjeux. Il appartient aux professionnels français et européens de contribuer à la détermination des standards du smart contract et/ou des sujets sur lesquels une vigilance particulière sera nécessaire. A ce jour, le smart contract constitue ce que l’on peut appeler un « OJNI » : un objet juridique non-identifié. Pourtant, il est aujourd’hui omniprésent, comme en attestent les millions de transactions – permettant la conversion entre la monnaie dite « fiat » (relevant de la politique monétaire des banques centrales des Etat) et la cryptomonnaie – opérées quotidiennement sur les différentes blockchains. Le fait précède donc la règle de droit.
Même si le smart contract semble actuellement s’affranchir significativement des lois existantes, c’est uniquement parce que lesdites lois ne sont pas (encore) adaptées aux situations nouvelles créées par ce type de contrat à exécution automatique conditionnelle. Le smart contract ne pourra pas durablement se développer, sur le territoire français, dans l’ignorance des règles juridiques européennes, qui sont le fruit de la lente recherche d’un équilibre entre les deux parties au contrat. C’est cet équilibre ancien qui va devoir être adapté à la situation nouvelle du smart contract. Le premier pas a été franchi par l’Union européenne (UE) avec l’adoption du Data Act (4). Dans son article 36, ce règlement européen pose à la fois des principes et organise des procédures (voir encadré page suivante). Alors que les entreprises commencent à réimaginer leur avenir, elles ont la possibilité d’explorer comment la technologie blockchain va pouvoir stimuler leur croissance. L’un des principaux avantages de la blockchain est son potentiel de création, de stockage et de partage d’informations sensibles en ligne. Les contrats, les documents d’identité, les certificats, les dossiers officiels et les accords peuvent tous être vérifiés de manière sûre et sécurisée. Dans cette logique, le smart contract apparaît être un outil essentiel et une étape supplémentaire. En effet, ce contrat à exécution automatique conditionnelle exécute justement automatiquement des conditions prédéfinies et inscrites dans une blockchain.
Dans ce contexte, réguler le smart contract et se préparer à son essor apparaissent comme des priorités pour les droits européen et français. Cela d’autant plus que les principaux systèmes juridiques ont déjà entrepris de démontrer en quoi ils étaient les mieux adaptés à l’essor du smart contract. C’est ainsi que, dès 2018, un rapport est paru en Grande-Bretagne en vue de démontrer que le système juridique britannique était le seul à même d’assurer un essor pérenne du smart contract. Même si on doit rendre hommage au travail réalisé par nos collègues anglais, nous sommes au regret de ne pas partager leurs conclusions selon laquelle c’est le droit anglais qui serait le mieux adapté pour réguler le smart contract – surtout depuis le Brexit…

Enjeux de souveraineté et d’équité
Le contrat à exécution automatique conditionnelle relève aussi d’un enjeu de souveraineté. La nécessité de réguler le développement du smart contract s’impose, d’abord, dans une démarche de souveraineté européenne. Ne pas contribuer à la détermination des standards reviendra de fait à la soumission au standard adopté par d’autres. Il relève aussi d’enjeu d’équité. Cette nécessité d’équité s’impose afin que le smart contract ne devienne pas un outil de spoliation au service d’une minorité. Le smart contract n’est en réalité qu’un simple outil qui n’est ni bon ni mauvais par nature. Dès lors, selon ce que nous en ferons, il pourrait devenir soit un outil de progrès contribuant à l’amélioration des affaires humaines, soit un outil de spoliation… En ce qu’ils placent la personne et non la marchandise en leur centre, les droits français et européen possèdent tous les atouts pour une régulation du smart contract permettant de faire peser la balance du bon côté entre « outil progrès » et « outil spoliation ».
Les recommandations. Huit recommandations concrètes ont vocation à permettre à l’UE, et donc à la France, de devenir une terre d’accueil pour des smart contracts conformes aux règles et valeurs françaises et européennes. Ces recommandations visent à la fois les « sujets » du smart contract et l’« objet » du smart contract.

Livre blanc : ses huit recommandations
Les recommandations relatives aux « sujets » du smart contract :
Eduquer les consommateurs.
Même s’il n’est qu’un outil, le smart contract est aussi la pièce d’un puzzle beaucoup plus large. Ce faisant, appréhender le smart contract impose de comprendre les autres pièces avec lesquels il est destiné à s’emboîter de manière à former le puzzle numérique. L’étude du smart contract ne peut donc être décorrélée de celle du Web3. Le développement durable du smart contract suppose la confiance du consommateur et du professionnel. Parce qu’une telle confiance ne peut être construite sur une méconnaissance des risques induits par le recours au smart contract, il est indispensable d’éduquer les consommateurs et de forger leur esprit critique pour leur permettre de déjouer d’éventuels pièges.
Eduquer les professionnels vendeurs. En parallèle de l’éducation des consommateurs, il est au moins aussi essentiel d’éduquer les professionnels vendeurs. En effet, ces derniers devront apprendre à recourir au smart contract afin de répondre à la demande de simplification du processus contractuel émanant des consommateurs.
Développer les développeurs. Disposer, d’une part, de consommateurs désireux d’avoir recours à la technologie pour se simplifier leur quotidien et, d’autre part, de professionnels susceptibles d’offrir leurs produits et leurs services ne suffira pas pour permettre l’essor des smart contracts. Encore faudra-t-il que des développeurs puissent les coder conformément aux attentes des parties.
Impliquer les juridictions et créer une juridiction spécialisée. Dès lors que le juge ne saurait être écarté du smart contract, il est indispensable d’impliquer les juridictions dès aujourd’hui dans la supervision de ces contrats à exécution automatique conditionnelle. Cette implication devra toutefois être pensée avec attention, notamment quant au moment d’intervention du juge dans les litiges impliquant des smart contracts.
Impliquer les autorités répressives. Des smart contracts frauduleux pourraient voir le jour. Aussi, convient-il d’envisager une implication des autorités répressives afin de permettre notamment une éradication sans délais de tels smart contracts qui auraient été signalés par des consommateurs.
Les recommandations relatives à l’objet du smart contract :
Encourager et accélérer l’essor des monnaies numériques de banque centrale (MNBC). L’essor de l’euro numérique constituerait un remède à l’instabilité de la valeur des cryptomonnaies, qui est de nature à entraver le développement des smart contracts. Dans ce contexte, il faudra non seulement que l’euro numérique soit effectivement mis en circulation dans l’UE, mais encore que la pratique se saisisse de cette monnaie.
Encourager la standardisation sous condition du smart contract. L’établissement de standards internationaux de smart contracts suppose deux volets : les conditions d’établissement de tels standards (dans la transparence) et leur contenu. Il pourrait notamment être envisagé que ces standards contiennent, d’une part, une liste des instruments à mobiliser lors du recours à un smart contract et, d’autre part, un tronc commun assimilable à des conditions générales (auquel pourraient s’ajouter des modalités de personnalisation).
Anticiper une nouvelle conception du règlement des litiges liés à l’utilisation des smart contracts. Les smart contracts n’engendreront pas une disparition des litiges ; il serait donc opportun d’anticiper une nouvelle conception du règlement des litiges les concernant. Dans cette optique, il pourrait notamment être envisagé d’opérer un traitement différent des litiges tenant aux conditions objectives du smart contract et des litiges tenant à ses conditions subjectives. Dans tous les cas, le développement de modes alternatifs de règlement des différends est à favoriser.

Un OJNI en cours d’identification
Ainsi, ce n’est que le tout début de l’histoire des contrats à exécution automatique conditionnelle. Cet OJNI est en passe d’être régulé et encadré par le droit positif, afin que le quasi vide juridique l’entourant fasse place à une sécurité juridique pour favoriser des smart contracts dans toutes les strates de l’économie numérique. La régulation est en marche, à commencer par le Data Act : c’est maintenant qu’il faut s’impliquer. @

* Fabrice Lorvo est l’auteur du livre « Numérique : de la
révolution au naufrage ? », paru en 2016 chez Fauves Editions.

La régulation veille à ce que les opérateurs télécoms intègrent des principes RSE/ESG

Alors que vient tout juste d’être publié le 3e volet de l’étude menée par l’Arcep et l’Ademe sur l’impact environnemental du numérique en France, les opérateurs télécoms intègrent de plus en plus des principes « RSE » et « ESG » pour notamment être éco-responsables.

Par Marta Lahuerta Escolano, avocate of counsel, Jones Day

L’empreinte environnementale des réseaux de télécommunications suscite un intérêt croissant dans le paysage numérique, compte tenu de la pénétration croissante des technologies de l’information et des communications dans notre société. Alors que ces réseaux sont vitaux pour assurer les besoins en connectivité de nos différentes activités, leur déploiement et leur utilisation génèrent des répercussions significatives sur l’environnement.

Emission CO2 du numérique en hausse
Les centres de données, les câbles sous-marins et les pylônes requièrent une alimentation électrique constante pour assurer la transmission des données. Ce qui a des conséquences en termes d’émissions de gaz à effet de serre (GES). Selon une étude de l’Agence de la transition écologique (Ademe) et l’Autorité de régulation des communications électroniques et des postes (Arcep), publiée en 2023 (1), l’empreinte carbone du numérique pourrait tripler entre 2020 et 2050 si aucune action n’était prise pour limiter la croissance de l’impact environnemental du numérique (2). Face aux enjeux environnementaux et sociaux croissants et l’essor de la régulation européenne en matière de durabilité, l’intégration des principes dits de « responsabilité sociale des entreprises » (RSE) est devenue une priorité pour les opérateurs télécoms qui sont désormais tenus de répondre à des normes plus strictes pour réduire leur impact environnemental. Le secteur numérique représente de 3 % à 4 % des émissions mondiales de GES, soit environ deux fois plus que l’aviation civile, selon le « Telco Sustainability Index » du cabinet de conseil américain BCG (3), et, selon cette fois l’Ademe, il contribue à hauteur de 2,5 % à l’empreinte carbone en France (4).
Selon les conclusions de la mission d’information du Sénat sur l’empreinte environnementale du numérique, dont le rapport avait été publié en juin 2020 (5), les GES du secteur pourraient connaître une hausse significative sans des actions visant à réduire leur impact : une augmentation projetée de 60 % d’ici 2040, ce qui représenterait 6,7 % des émissions de GES de la France. Actuellement, d’après un rapport de 2021 publié par Capgemini et la GSMA (6), les dépenses énergétiques dans le monde représentent 20 % à 40 % des coûts d’exploitation dans le secteur des télécommunications, et cette proportion est encore plus significative sur les marchés d’Asie du Sud-Est et d’Afrique, où l’utilisation de diesel est très présente. Avec une croissance prévue du trafic de données mondiales, les dépenses énergétiques continueront à croître, à moins que des investissements dans l’efficacité énergétique et les énergies renouvelables puissent compenser cet effet.
A la demande du gouvernement français, en 2020, l’Ademe et l’Arcep ont entrepris une étude en trois volets visant à approfondir la compréhension de l’impact environnemental du numérique dans l’Hexagone. Attendu pour fin 2023, le troisième volet a enfin été publié le 21 mars 2024, intégrant opérateurs de centres de données et fabricants de terminaux (7). Selon les deux premiers rapports publiés le 19 janvier 2022 (8), les appareils, notamment les écrans et les téléviseurs, sont responsables de la grande majorité des impacts environnementaux (de 65 % à 92 %), suivis des centres de données (de 4 % à 20 %) et des réseaux (de 4 % à 13 %). Pour produire un bilan carbone, l’Ademe propose un découpage par portée « scope » (1, 2 et 3) permettant de distinguer les différentes sources d’émissions de CO2 : les émissions de portée 1 concernent les émissions directes de GES issues de combustibles fossiles (pétrole, gaz, charbon, …) ; les émissions de portée 2 englobent les émissions indirectes résultant de la production d’énergie achetée et consommée par l’opérateur (électricité et réseaux de chaleur/froid) ; les émission de portée 3 couvrent une gamme plus large et incluent les émissions indirectes qui résultent des activités de l’opérateur, mais qui se situent en dehors de son contrôle direct (produits achetés, consommation d’énergie des fournisseurs, logistique, déchets, etc.).

Intégration de la RSE dans les télécoms
Les émissions de portée 3 sont le domaine d’impact le plus important, représentant généralement plus des deux tiers des émissions totales de carbone d’un opérateur télécoms (9). La responsabilité sociétale des entreprises (RSE), également appelée responsabilité sociale des entreprises ou en anglais Corporate Social Responsibility (CSR), est définie par la Commission européenne comme l’intégration volontaire par les entreprises de préoccupations sociales et environnementales à leurs activités commerciales et leurs relations avec les parties prenantes (10). La norme ISO 26000 (11), standard international, définit le périmètre de la RSE autour de sept thématiques centrales : la gouvernance de l’organisation, les droits de l’homme, les relations et conditions de travail, l’environnement, la loyauté des pratiques, les questions relatives aux consommateurs, et les communautés et le développement local.

« Pacte vert pour l’Europe » et les réseaux
L’intégration des principes RSE dans les télécoms consiste à adopter des pratiques commerciales responsables qui tiennent compte de l’impact environnemental, social et économique de leurs opérations. Ces principes RSE impliquent généralement la réduction des émissions de carbone, la gestion responsable des ressources naturelles, le respect des droits de l’homme, la promotion de la diversité et de l’inclusion, ainsi que la transparence dans les pratiques commerciales.
Parmi les initiatives RSE, à titre d’exemples, peuvent être cités : l’utilisation croissante des énergies renouvelables pour alimenter les réseaux, la réduction des déchets électroniques par le recyclage des équipements obsolètes, l’utilisation de batteries plus efficaces, ou encore le déploiement de réseaux définis par logiciel. Les opérateurs télécoms intègrent ainsi de plus en plus les principes « environnementaux, sociétaux et de gouvernance » (ESG) dans leurs décisions d’investissement, en privilégiant les fournisseurs et les partenaires commerciaux qui partagent leurs valeurs en matière de durabilité.
Outre les investissements effectués par les « telcos » pour accroître l’efficacité énergétique de leurs réseaux mobiles et fixes, la transformation numérique d’autres secteurs d’activité peut entraîner un impact potentiellement plus significatif.
D’après le rapport Capgemini-GSMA de 2021, la technologie mobile et numérique pourrait permettre environ 40 % des réductions de CO2 nécessaires d’ici 2030 dans les quatre industries les plus émettrices – à savoir l’industrie manufacturière, l’électricité et l’énergie, les transports, et les bâtiments, lesquels représentent 80 % des émissions au niveau mondial.
L’Union européenne (UE) a joué un rôle précurseur dans l’adoption de politiques de durabilité dans le secteur des télécoms et dans le cadre du « Pacte vert pour l’Europe » (12). Ces mesures comprennent la mise en place de pratiques de gestion environnementale et sociale, la publication de rapports de durabilité transparents, ainsi que la promotion de l’innovation technologique visant à réduire l’impact écologique des réseaux de télécommunications. Dans ce contexte, à partir de 2020, l’Arcep a commencé à recueillir des informations auprès des principales entreprises de communications électroniques en France concernant leur impact environnemental. Ce processus de collecte de données a conduit à la publication annuelle d’enquêtes sur la durabilité numérique dans l’Hexagone.
En 2021, les pouvoirs de collecte de données de l’Arcep ont été élargis pour inclure des informations provenant d’autres acteurs de l’industrie numérique. La loi « Renforcer la régulation environnementale du numérique par l’Arcep » (13), adoptée le 23 décembre 2021, modifie le code des postes et des communications électroniques français (CPCE) et confère à l’Arcep le pouvoir de collecter des données sur l’empreinte environnementale auprès des fournisseurs de services de communication en ligne, des exploitants de centres de données, des fabricants d’équipements terminaux, des fabricants d’équipements de réseau et des fournisseurs de systèmes d’exploitation (14).
Après avoir engagé une série de discussions avec les parties prenantes numériques concernées, l’Arcep a publié un projet de décision sur la question et mené une consultation publique entre juillet 2022 et septembre 2022. Le 21 décembre 2022, elle a émis la décision datée du 22 novembre 2022, qui oblige les opérateurs de communications électroniques, les exploitants de centres de données et les fabricants d’équipements terminaux à lui fournir annuellement des données environnementales (15). Désormais, les opérateurs télécoms sont tenus d’informer l’Arcep sur leur empreinte environnementale.

Entre progrès, défis et opportunités
Bien que l’intégration des principes RSE dans les télécoms représente un progrès significatif vers un secteur plus durable, elle n’est pas exempte de défis. Certains opérateurs de réseaux peuvent rencontrer des obstacles tels que des coûts initiaux élevés pour la mise en œuvre de technologies vertes ou des contraintes réglementaires complexes. En combinant l’innovation technologique avec un engagement envers la durabilité, les opérateurs télécoms peuvent jouer un rôle crucial dans la construction d’un avenir plus « vert » et plus équitable pour tous. La régulation européenne en matière de durabilité pourrait offrir un cadre pour orienter cette transition vers un secteur télécoms et numérique plus responsable et plus durable. @

* Tous les points de vue ou opinions exprimés dans cet
article sont personnels et n’appartiennent qu’à l’auteur.