Fondé il y a 50 ans, le fabricant high-tech taïwanais Foxconn devient de plus en plus « intelligent »

Vous pensiez que le fabricant taïwanais Foxconn, célèbre fournisseur d’Apple pour ses iPhone, était tout juste bon à assembler des smartphones. Erreur : Hon Hai Precision Industry – son vrai nom – est devenu en 50 ans une Big Tech mondiale misant elle aussi sur l’intelligence artificielle.

(Le 5 juin, Hon Hai a annoncé une hausse de 22 % sur un an de son chiffre d’affaires en mai 2024)

1974-2024. Lorsque Terry Gou (photo) a créé Hon Hai Precision Industry Co, il y a 50 ans à Taïpei, capitale de Taïwan, il n’imaginait pas que son entreprise de fabrication de connecteurs électriques pour composants informatiques allait devenir le premier sous-traitant mondial dans la fabrication d’appareils électroniques grand public et le seul fabricant mondial – du moins jusqu’en 2012 – d’iPhone, d’iPad et d’iPod Touch pour le compte d’Apple, dont il est toujours le principal fournisseur.

Puces, serveurs IA, véhicules électriques, …
Mais la marque à la pomme n’est pas la seule à se faire fabriquer chez Foxconn – surnom de Hon Hai issu de sa première marque emblématique : il y a aussi Dell, HewlettPackard, IBM, Microsoft ou encore Cisco, du côté des Etats-Unis, ainsi que Huawei, Lenovo, Nintendo, Sony, Toshiba ou encore Xiaomi, du côté de l’Asie, auxquels il faut ajouter le finlandais HDM qui fait fabriquer pour la marque Nokia. Mais au-delà de son activité historique de sous-traitant arrivée à maturité, Hon Hai a su se diversifier : dans les véhicules électriques (1), l’IA (notamment dans les serveurs de calcul haute performance pour IA générative), les semiconducteurs, la robotique et les satellites en orbite basse, en faisant jouer à plein son savoir-faire d’un demi-siècle dans les composants, les modules, l’assemblage de système, les circuits intégrés, et les logiciels. Sans oublier la fabrication de téléviseurs depuis 2012 avec l’électronicien japonais Sharp, dont Hon Hai détient 34,1 % du capital après une prise de contrôle en 2016.
Résultat : en 2023, le groupe Hon Hai a dégagé un bénéfice net de 4,6 milliards d’euros (2) en réalisant un chiffre d’affaires de 199,7 milliards d’euros (3). Malgré une légère baisse de ces revenus annuels de -7 %, il s’agit tout de même du second record historique. Le PDG actuel, Young Liu, qui a succédé au fondateur Terry Gou (73 ans) le 1er juillet 2019, a revu en mars dernier ses prévisions 2024. Au lieu d’une « perspective neutre » pour cette année envisagée en novembre dernier lors de la précédente conférence des investisseurs, il s’attend maintenant à une « croissance significative ». A l’occasion de l’annonce le 15 mai dernier d’un accord avec l’allemand Siemens autour de « l’usine du futur », Young Liu s’est montré enthousiaste pour l’avenir de Hon Hai : « Foxconn se transforme en un fournisseur de solutions de plateforme pour la fabrication intelligente, les véhicules électriques intelligents et les villes intelligentes » (4). La robotisation et les jumeaux numériques font partie intégrante de la fabrication, tout comme désormais l’intelligence artificielle. La croissance de Foxconn sera aussi portée par ses puissants serveurs d’IA et ses composants pour centres de données d’IA (5) capables de répondre à la forte demande due à l’explosion des IA générative. « Dans ce segment, a indiqué le PDG de Hon Hai, la croissance annuelle des modules GPU [processeurs graphiques forts en calcul, ndlr] doublera cette année, tandis que le chiffre d’affaires du secteur des serveurs IA devrait dépasser 40 % sur un an et représenter plus de 40 % de l’ensemble des activités de serveurs » (6). Même Sharp déficitaire, lourdement déprécié dans les comptes de Hon Hai, pourrait rebondir avec l’IA.

Historiquement, outre Taïwan, la première usine de fabrication de Hon Hai en Chine continentale a été construite en 1988 à Longhua (Shenzhen), suivie d’une seconde usine chinoise à Huizhou (Sud de l’Empire du Milieu). Des conditions de travail et des suicides y ont été dénoncés. Puis, il y a eu de nouvelles usines en Inde, au Mexique et au Vietnam. « En Chine, nous nous concentrerons sur l’automatisation et les nouveaux segments d’activité. En Inde, sur les produits de consommation intelligents. Au Vietnam, sur les produits informatiques. Et dans les Amériques, sur les véhicules électriques, les composants de véhicules électriques et les composants d’IA pour les produits de réseau cloud », a expliqué le 14 mai dernier, le porte-parole du groupe, James Wu, lors d’une conférence téléphonique avec des analystes (7). Le même jour, Young Liu était, lui, … en Europe, où Hon Hai usine déjà en Tchéquie, en Slovaquie et en Hongrie.

De moins en moins dépendant d’Apple
Le géant mondial Hon Hai – dont la capitalisation à la Bourse de Taïpei et de Londres est de 67,6 milliards d’euros (au 16-05-24) – a vu le cours de son action bondir de plus de 60 % depuis le début de cette année. Sa diversification plaît au marché, Foxconn n’étant plus dépendant de la Pomme, dont la majorité de la production a lieu sur le continent chinois et sur l’île de Taïwan. Surtout que Tim Cook, PDG d’Apple, a diversifié en dix ans ses fournisseurs – notamment en Inde. @

Charles de Laubier

Les médias en ligne redoutent la transformation du moteur de recherche Google en IA générative

Plus de 25 ans après sa création par Larry Page et Sergey Brin, le moteur de recherche en quasi-monopole fait sa mue pour devenir une IA générative qui aura réponse à tout. Les sites web de presse pourraient être les victimes collatérales en termes d’audience. Le chat-search présentera moins de liens.

(après que des internautes aient signalé des résultats erronés générés par « AI Overviews », Google a annoncé le 30 mai des mesures correctrices, y compris en améliorant ses algorithmes) 

Google est mort, vive Google ! Mais cet enthousiasme ne sera sans doute pas partagé par les sites de médias en ligne qui tirent jusqu’à maintenant une part importante de leurs audiences de la consultation massive du moteur de recherche Google, lorsque ce n’est pas de son agrégateur d’actualités Google News. Depuis que Sundar Pichai, le PDG d’Alphabet, maison mère de Google, a annoncé le 14 mai – lors du Google I/O 2024 (1) – la plus grande transformation du numéro un mondial du search en un moteur d’IA générative, les éditeurs de presse en ligne s’inquiètent pour la fréquentation de leurs sites Internet. L’objet de leurs craintes s’appelle « AI Overviews », la fonctionnalité la plus « intelligente » et disruptive jamais introduite dans Google depuis son lancement il y a un quart de siècle (2). La page de résultats de recherche ne sera plus présentée de la même manière : fini la liste impersonnelle de liens donnant accès à des sites web censés répondre, après avoir cliqué, à vos requêtes courtes et souvent par mots-clés ; place à une réponse détaillée et intelligible développée par l’IA générative elle-même, en fonction de ce que vous lui avez demandé en langage naturel, avec quelques liens seulement triés sur le volet en guise de sources venant étayer la réponse et/ou le raisonnement.

Avec « AI Overviews », moins besoin de cliquer
Cette combinaison de l’IA générative et de l’IA multimodale fait passer Google de l’ère du « moteur » (search) à celle d’« assistant » (chatbot). Le nouveau Google « intelligent » a commencé à être déployé aux Etats-Unis depuis mi-mai, et d’autres pays dans le monde suivront pour atteindre 1 milliard d’utilisateurs d’ici la fin de l’année. L’IA générative de Google, appelée Gemini, vous mâche le travail sans que vous ayez forcément besoin d’aller cliquer sur les liens relégués au second plan. « Maintenant, avec l’IA générative, le moteur de recherche peut faire plus que vous ne l’imaginez. Vous pouvez donc demander ce que vous avez en tête ou ce que vous devez faire – de la recherche à la planification en passant par le brainstorming – et Google s’occupera des démarches », a expliqué Elizabeth Reid, alias Liz Reid (photo), vice-présidente de Google, responsable du moteur de recherche. Cliquer sur des liens devient une option, tant la réponse « AI Overviews » (« Aperçus de l’IA » en français) peut s’évérer satisfaisante.


La « Google dépendance » des médias
Surtout que Gemini est un grand modèle multimodal (LMM), développé par Google DeepMind, capable de comprendre et de générer du contenu en utilisant différents types de données comme du texte, des images, de l’audio et de la vidéo. YouTube, Google Maps ou encore Google Shopping seront mis à contribution. La réponse synthétique du chat-search apportée à l’utilisateur est multimédia et vise à satisfaire immédiatement ce dernier, avec peu de sites mis en exergue par AI Overviews, afin que l’internaute n’aille plus se perdre dans un inventaire de liens à la Prévert.
La liste de sites web habituellement en tête des résultats de recherche sur Google (comme sur d’autres moteurs de recherche d’ailleurs) se retrouve tout en bas de la page. Cette réorganisation du moteur de recherche de la firme de Mountain View va chambouler au passage toutes les stratégies d’optimisation pour les moteurs de recherche, ce que l’on appelle SEO (Search Engine Optimization). De plus, le nouveau « AI Google » pourrait éradiquer les « spams SEO », ou spamdexing (4), et limiter les liens sponsorisés qui parasitent les résultats de recherche. Mais les prestataires de SEO appellent à plus de transparence sur AI Overviews, rapporte eMarketer (5). Les médias en ligne optimisent eux aussi leur visibilité dans les résultats de recherche et, partant, augmentent leur trafic. Revers de la médaille de cette « Google dépendance », qui atteindrait jusqu’à près de la moitié de l’audience d’un site web : les éditeurs du monde entier s’attendent à ce que leurs audiences chutent. « A mesure que nous étendrons cette expérience, nous continuerons à nous concentrer sur l’envoi de trafic précieux aux éditeurs et aux créateurs », a tenté de les rassurer Liz Reid.
Beaucoup de candidats, peu d’élus : tel pourrait être à l’avenir le bilan de d’AI Overviews sur la presse en ligne, certains désavantagés pourraient être poussés à mettre la clé sous la porte. En France, le directeur général de l’Alliance de la presse d’information générale (Apig), qui réunit 300 titres quotidiens nationaux (Le Monde, Le Figaro, Libération, …) et régionaux (La Provence, Ouest-France, Sud-Ouest, …), a exprimé dans Le Monde ses craintes : « Le risque est que le moteur de recherche devienne un moteur de réponse. Et que les réponses générées par l’IA prennent sur le moteur la place des liens vers les sites web. Cela serait pour nous catastrophique économiquement », a ainsi prévenu Pierre Petillault (6). En prenant la main sur Google Search, le moteur « AI Overviews » effectue la recherche à la place de l’utilisateur-lecteur et produit lui-même un contenu multi-source. L’internaute gagne du temps, mais les sites web perdent en trafic et donc en publicité. Et en occupant une grande partie de la page de résultats, la réponse de « Google Gemini » tend à se suffire en elle-même. Le clic devient optionnel. « Nous voyons que les liens inclus dans AI Overviews obtiennent plus de clics que si la page était apparue comme une liste de sites web traditionnelle pour cette requête », a assuré Liz Reid pour apaiser les craintes. Mais qu’adviendra-t-il des sites web situés tout en bas de la page de résultats, où la trappe se le dispute aux oubliettes. « La question, c’est qui choisit ces liens ? Parce qu’il n’y en aura que quelques-uns [dans AI Overviews]. Comment puis-je m’assurer que mes liens, mon site, mon contenu sont inclus dans ces résultats ? J’imagine qu’il faudra payer, ce qui n’est pas vraiment différent de ce qui existait jusqu’ici », s’est interrogé David Clinch, cofondateur du cabinet de conseil Media Growth Partners (MGP), cité par l’AFP le 16 mai.
Autre inquiétude : le 21 mai, lors de son Google’s Marketing Live (7), le géant du Web a révélé que ses aperçus IA incluront des publicités signalées « sponsorisées » dans les réponses, reléguant aussi plus bas dans la page les liens sponsorisés classiques. De quoi destabiliser tout l’écosystème.
Le lièvre Microsoft associé à OpenAI a été le premier, fin 2023, à mettre de l’IA générative dans son moteur de recherche Bing. Mais il est rattrapé par la tortue Google qui a pris le temps de tester depuis un an son AI Overviews boosté par Gemini (ex-Bard). Contrairement au marché traditionnel des moteurs de recherche où Google est ultradominant, la concurrence devrait être plus exacerbée, OpenAI (8), Perplexity (9) ou encore Anthropic (10) étant décidés à tailler des croupières à Google Search.

Baisse de régime des moteurs en vue
D’autant que le cabinet américain Gartner a prédit que les moteurs de recherche traditionnels verront leur volume de requêtes chuter d’un quart (- 25 %) d’ici 2026 au profit des chatbots ou autres agents virtuels alimentés par l’IA. « Les solutions d’IA générative (GenAI) deviennent des moteurs de réponse de substitution, remplaçant les requêtes des utilisateurs qui pouvaient auparavant être exécutées dans les moteurs de recherche traditionnels. Cela forcera les entreprises à repenser leur stratégie de canaux marketing à mesure que GenAI s’intègrera à tous les aspects de l’entreprise », prévient Alan Antin, l’un de ses analyses (11). Pour ne pas caler, les moteurs de recherche sont tous contraints de devenir des moteurs de réponse à tout. @

Charles de Laubier

Divisée face aux Gafam, la presse française ne favorise pas la transparence sur les droits voisins

Carine Fouteau, nouvelle présidente et directrice de la publication Mediapart, pointe la non transparence de Google sur les sommes dues au titre des droits voisins de la presse. Mais elle s’en prend aussi « aux médias qui ont fait le choix du chacun pour soi en signant des accord individuels ».

C’est le premier coup de gueule de Carine Fouteau (photo), cette journaliste qui a succédé en mars 2024 à Edwy Plenel à la présidence de la Société éditrice de Mediapart. La nouvelle directrice de la publication de Mediapart a dénoncé fin avril « l’opacité des Gafam » en général et « l’absence de transparence » de Google en particulier. Le média d’investigation reproche notamment « les clauses de confidentialité imposées par Google » dans le cadre de l’accord que ce dernier a signé en octobre 2023 avec la Société des droits voisins de la presse (DVP).

L’Autorité de la concurrence a déjà sévi
Ce premier « accord majeur » de la Société DVP avec Google porte sur l’exploitation des contenus de presse par Google Actualités, Google Search et Google Discover sur la période allant d’octobre 2019 à décembre 2022. Le montant total ainsi collecté – pour le compte des 305 éditeurs (dont Edition Multimédi@) et agences de presse membres de cet organisme de gestion collective – n’a pas été divulgué. Et pour cause, Google impose à la Société DVP des clauses de confidentialité qui l’empêche de publier l’enveloppe globale obtenue dans le cadre de cet accord contractuel. La nouvelle patronne de Mediapart (1), dont la société éditrice est membre du conseil d’administration de la Société DVP, pointe ce défaut de transparence. Les sommes correspondantes à cette première période ont été versées en mars aux éditeurs membres, tandis que le média fondé par Edwy Plenel a décidé de ne pas encaisser la « substantielle somme » lui revenant. « La rétribution ne retourne pour autant pas à l’envoyeur (Google) : elle reste en réserve dans l’organisme de gestion collective, en attendant que le voile sur les chiffres soit levé », a précisé Carine Fouteau sur le site d’investigation.

Elle rappelle que l’Autorité de la concurrence (ADLC) venait, par décision datée du 15 mars dernier (2), d’infliger à Google une amende de 250 millions d’euros pour ne pas avoir respecté certains engagements rendus obligatoires depuis juin 2022, notamment sur la transparence justement. « Nous avons développé une méthodologie non-discriminatoire et transparente », s’est défendu Google (3). Cette décision était la quatrième rendue en quatre ans par l’ADLC sur ce dossier « Google/droits voisins de la presse », dont une première amende de 500 millions d’euros infligée à Google le 12 juillet 2021 (4) pour non-respect des injonctions qui lui avaient été faites par décision du 9 avril 2020 (5). Selon nos informations, la somme collectée au titre de l’année 2023 par la Société DVP auprès de Google sera répartie entre les éditeurs membres à la fin de l’année 2024. Des négociations sont aussi en cours avec d’autres géants du Net (6). Meta (Facebook, Instagram) et Microsoft (MSN, LinkedIn) pourraient être les prochains à signer avec l’organisme de gestion collective. Des négociations sont également en cours avec X (ex-Twitter). « Pour faire plier les mastodontes de la tech, il est urgent que la représentation nationale, via le Parlement, prenne le relais et complète la loi de 2019 [établissant un droit voisin de la presse par transposition en France de la directive européenne de 2019 sur le “droit d’auteur dans le marché unique numérique”, ndlr] en inscrivant ce refus du secret dans le marbre », a estimé Carine Fouteau.
La Société DVP – présidée par Jean-Marie Cavada – a en fait confié toutes ces négociations à deux organismes : la Sacem (7) pour les plateforme numériques dites B2C (orientées consommateurs) telles que Google, Meta, Microsoft, LinkedIn ou encore Twitter ; le CFC (8) pour les plateformes numériques dites B2B (pour entreprises et professionnels) telles que les prestataires de veille média comme Onclusive (ex-Kantar Media), Cision (ex-L’Argus de la presse) ou encore des crawlers (9).
La non-transparence dans la rémunération des droits voisins de la presse vient aussi du fait que la presse française négocie en ordre dispersé avec les Gafam. Et cela vaut aussi bien pour les moteurs de recherche et agrégateurs d’actualités que pour les intelligences artificielles génératives. « Contrairement aux médias qui ont fait le choix du chacun pour soi en signant des accords individuels, nous considérons que seul un front uni des acteurs du secteur est à même de faire fléchir ces multinationales, qui, sans législation, continueraient de piller nos articles », a estimé la présidente de la Société éditrice de Mediapart.

Moteurs et IA générative : la presse dispersée
Rappelons que l’ADLC avait remis en cause en juillet 2021 le premier accord-cadre signé entre Google et l’Alliance de la presse d’information générale (Apig). Un second fut nécessaire, pour que les quotidiens membres (300 titres) puissent signer individuellement (10). Mais le 9 avril dernier, l’Apig a annoncé confier à la Sacem la renégociation de ses accords-cadres avec Google et Meta (11), après lui avoir confié en octobre 2023 les négociations avec les autres géants du Net. @

Charles de Laubier

Acteurs de l’IA, la Cnil vous adresse ses premières recommandations : à vous de jouer !

La Commission nationale de l’informatique et des libertés (Cnil) a publié le 8 avril 2024 sept premières fiches « pour un usage de l’IA respectueux des données personnelles ». D’autres sont à venir. Ces règles du jeu, complexes, sont les bienvenues pour être en phase avec le RGPD et l’AI Act. Par Anne-Marie Pecoraro*, avocate associée, UGGC Avocats L’intelligence artificielle (IA) conduit à questionner de manière plus exigeante et approfondie la protection des données personnelles. Les principes fondateurs du RGPD (1) doivent non seulement être pleinement rappelés et appliqués, mais ils doivent même l’être de manière plus dynamique et exigeante. Un exemple : des données qui auraient précédemment pu être considérées pseudonymisées ou même anonymisées, pourront faire l’objet de calculs et de recoupements massifs, qui pourraient aboutir à identifier à nouveau les personnes, grâce à l’utilisation de l’IA. Sept premières fiches pratiques L’entraînement des IA appelle des données personnelles comme l’image et la voix des personnes, d’une quantité sidérale sans précédent. Il appartient aux entreprises et organisations nationales et internationales de procéder à la mise en conformité avec l’AI Act, lequel a été adopté 13 mars 2024 par le Parlement européen (2). Parallèlement et le même jour en France, la commission de l’IA – installée depuis septembre 2023 auprès du Premier ministre – a remis au président de la République son rapport (3) qui recommande notamment un assouplissement des contraintes liées à l’utilisation, par l’IA, de données personnelles. Cette commission IA appelle à « transformer notre approche de la donnée personnelle pour protéger tout en facilitant l’innovation au service de nos besoins ». Le 8 avril 2024, c’était au tour de la Cnil de publier des fiches pratiques consacrées à la phase de développement des systèmes d’IA. L’autorité administrative indépendante accompagne les acteurs de l’IA depuis deux ans déjà, comme elle ne manque pas de le rappeler dans son dernier rapport annuel (4), à travers notamment la création d’un service dédié, la publication de ressources et webinaires, ainsi que l’établissement d’une feuille de route articulée autour de quatre piliers : appréhender, guider, fédérer et accompagner, auditer. Ces recommandations font suite à la consultation publique entreprise en octobre 2023, laquelle a réuni une quarantaine de contributions d’acteurs divers (5). Afin de présenter ces fiches pratiques (6), un webinaire a été organisé par la Cnil le 23 avril dernier. L’occasion pour celle-ci d’apporter ses derniers éclairages. Concernant le périmètre d’application, il convient premièrement de préciser que ces fiches pratiques n’ont vocation à s’intéresser qu’à la phase de développement de systèmes d’IA (conception de base de données, entraînement, apprentissage) impliquant un traitement de données personnelles pour les cas d’usage pour lesquels le RGPD est applicable (7). Celles-ci n’ont donc pas vocation à régir la phase dite de « déploiement » d’un système d’IA. Retenant la même définition des « systèmes d’IA » que l’AI Act, sont notamment concernés par ces recommandations : les systèmes fondés sur l’apprentissage automatique, ceux fondés sur la logique et les connaissances (moteurs d’inférence, bases de connaissance, systèmes experts, …), ou encore les systèmes hybrides. Afin d’aider les professionnels dans leur mise en conformité, la Cnil a défini, à travers sept fiches de recommandations, les bonnes pratiques à respecter sans que celles-ci soient toutefois contraignantes. Ces recommandations tiennent compte des dispositions de l’AI Act et ont vocation à les compléter. La Cnil profite de ces lignes directrices pour rappeler les principes fondamentaux (licéité, transparence, minimisation, exactitude, limitation de conservation des données, …) et obligations majeures découlant du RGPD inhérentes à tout traitement, en les précisant et les adaptant au mieux à l’objet traité : les systèmes d’IA. Si les recommandations qui suivent concernent majoritairement les responsables de traitement, les sous-traitants ne sont pas délaissés, repartant également avec leur lot de bonnes pratiques. Peuvent à ce titre être cités : un respect strict des instructions du responsable de traitement, la conclusion d’un contrat de sous-traitance conforme à la réglementation en matière de données personnelles ou encore, l’obligation de s’assurer de la sécurité des données sous-traitées (8). Apports majeurs des recommandations Prenez soin de définir une finalité déterminée, explicite et légitime pour le traitement projeté. Deux situations sont clairement distinguées par la Cnil, selon que l’usage opérationnel en phase de déploiement du système d’IA est d’ores et déjà identifié, ou non, dès la phase de développement. Dans la première hypothèse, il est considéré que la finalité en phase de développement suivra celle poursuivie en phase de déploiement. De sorte que si celle-ci est suffisamment déterminée, explicite et légitime, alors la finalité en phase de développement le sera également. Dans la seconde hypothèse, et notamment en présence de systèmes d’IA à usage général, la Cnil insiste sur la nécessité de prévoir une finalité « conforme et détaillée ». Elle livre des exemples de finalités qu’elle considère, ou non conformes, précisant à ce titre que le simple « développement d’une IA générative » n’est pas une finalité conforme car jugée trop large et imprécise. Finalité conforme et responsabilités précises La méthode à suivre est alors révélée : une finalité ne sera conforme que si elle se réfère « cumulativement au“type” du système développé et aux fonctionnalités et capacités techniquement envisageables » (9). Le secteur de la recherche n’est bien sûr pas oublié. Une tolérance dans le degré de précision de l’objectif ou encore dans la spécification des finalités est évoquée, sans laisser de côté les éventuelles dérogations ou aménagements applicables. Déterminez votre rôle et vos responsabilités : suis-je responsable de traitement, sous-traitant, ou encore responsableconjoint ? Le développement d’un système d’IA peut nécessiter l’intervention de plusieurs acteurs. Dès lors, identifier son rôle au sens du RGPD peut être parfois délicat et les éclairages de la Cnil sur la question sont les bienvenus. Pour rappel, le responsable de traitement est « la personne […] qui, seul ou conjointement détermine les objectifs et moyens du traitement » (10). Cette qualité emporte son lot d’obligations et de responsabilités, d’où la nécessité de la déterminer avec précision. Les acteurs pourront se référer à la fiche donnant des exemples d’analyse permettant d’identifier son rôle au cas par cas (11). Effectuez un traitement licite et respectueux des principes fondamentaux. Un rappel des principes à respecter pour tout traitement ne mange pas de pain mais épargne bien des soucis en cas de contrôle. La Cnil s’attarde notamment sur l’obligation de choisir, parmi celles prévues par le RGPD, la base légale la plus adéquate au traitement projeté. Pour le développement de systèmes d’IA, elle explore cinq bases légales envisageables (12) : le consentement, l’intérêt légitime, l’obligation légale, la mission d’intérêt public ou encore le contrat. En cas de réutilisation de données, des vérifications seront à mener et, là encore, les recommandations de la Cnil différent selon l’hypothèse rencontrée et notamment en fonction de la source desdites données (données publiquement accessibles ou collectées par des tiers, …). A titre d’exemple, pour une réutilisation de données collectées par le fournisseur lui-même pour une finalité initiale différente, la Cnil impose, sous certaines conditions, un « test de comptabilité » (13) permettant de s’assurer que la finalité poursuivie est compatible avec la finalité initiale, et rappelle les obligations de fonder son traitement ultérieur sur une base légale valable sans oublier la nécessité d’informer les personnes concernées. Par ailleurs, la Cnil révèle les cas possibles de réutilisation de données collectées par des tiers, ainsi que les obligations qui incombent au tiers et ainsi qu’au réutilisateur de ces données. Respectez les principes fondamentaux. Le gendarme des données insiste également sur la nécessité de respecter les principes fondamentaux. Ce respect doit s’imposer à tout stade du développement d’un système d’IA, dès sa conception « privacy by design » (14), mais également lors de la collecte et de la gestion des données (15). La Cnil s’attarde particulièrement sur le principe de minimisation, lequel impose de ne traiter que les données « adéquates, pertinentes et limitées à ce qui est nécessaire au regard des finalités » (16) déterminées. Si la Cnil s’attache à soutenir que le respect de ce principe « n’empêche pas l’utilisation de larges bases de données » (17) et notamment de données publiquement accessibles (18), il implique nécessairement pour un responsable de traitement de repenser l’entraînement et la conception de ses systèmes d’IA en se posant concrètement les questions suivantes : « Les données utilisées et/ou collectées sont-elles vraiment utiles au développement du système souhaité ? Ma sélection est-elle pertinente ? Pourrais-je mettre en place une méthode à suivre plus respectueuse des droits et libertés des personnes concernées ? Si oui, par quels moyens techniques ? ». A titre de bonnes pratiques, la Cnil recommande d’ailleurs d’associer au développement du projet un comité éthique et de mener une étude pilote afin de s’assurer de la pertinence de ses choix en matière de conception d’un système d’IA (19). Par ailleurs et conformément au principe de limitation des données de conservation (20), les durées de conservation des données utilisées seront à déterminer préalablement au développement du système d’IA. La Cnil appelle, à ce titre, à consulter son guide pratique sur les durées de conservation (21). Ces durées devront faire l’objet de suivi, de sorte que les données qui ne seront plus nécessaires devront être supprimées. Le respect de ce principe ne s’oppose pas à ce que, sous certaines conditions, des données soient conservées pour des durées plus longues, notamment à des fins de maintenance ou d’amélioration du produit. Analyse d’impact (AIPD) nécessaire Enfin, réalisez une analyse d’impact quand c’est nécessaire. L’analyse d’impact sur la protection des données (AIPD) permet d’évaluer et de recenser les risques d’un traitement en vue d’établir un plan d’action permettant de les réduire. Cette analyse AIPD (22) est, selon les cas, obligatoire ou bien fortement recommandée. A la lumière de la doctrine de la Cnil et de l’AI Act, les entreprises et organisations doivent à présent mettre en place leur mise en conformité, avec des points très réguliers. @

* Anne-Marie Pecoraro est avocate spécialisée en droit de la propriété intellectuelle, des médias et des technologies.

IA génératives, contrefaçons, exceptions au droit d’auteur et opt out : où se situent les limites ?

Adopté par les eurodéputés le 13 mars 2024, l’AI Act – approuvé par les Etats membres en décembre 2023 – va être définitivement voté en plénière par le Parlement européen. Mais des questions demeurent, notamment sur les limites du droit d’auteur face aux intelligences artificielles génératives.

Par Vanessa Bouchara, avocate associée, et Claire Benassar, avocate collaboratrice, Bouchara & Avocats.

Si l’utilisation des intelligences artificielles (1) est désormais largement répandue, ces techniques et technologies capables de simuler l’intelligence humaine restent au cœur de nombreux questionnements – tant éthiques que juridiques. Alors même que le projet de règlement européen visant à encadrer l’usage et la commercialisation des intelligences artificielles au sein de l’Union européenne, dit AI Act (2), a été adopté en première lecture le 13 mars 2024 par le Parlement européen (3), c’est l’intelligence artificielle générative – IAg, AIG ou GenAI – qui est aujourd’hui sujette à controverse.

Droit d’auteur et procès en contrefaçon
A l’origine du débat les concernant, il importe de rappeler que les systèmes d’IAg ont pour particularité de générer du contenu (textes, images, vidéos, musiques, graphiques, etc.) sur la base, d’une part, des informations directement renseignées dans l’outil par son utilisateur, et, d’autre part et surtout, des données absorbées en amont par l’outil pour enrichir et entraîner son système. Les systèmes d’intelligence artificielle générative sont ainsi accusés d’être à l’origine d’actes de contrefaçon, et pour cause : l’ensemble des données entrantes dont ils se nourrissent peuvent potentiellement être protégées par des droits de propriété intellectuelle. Où se situe donc la limite entre l’utilisation licite de ces données et la caractérisation d’un acte de contrefaçon ? Si, par principe, la reproduction de telles données est interdite, le droit européen semble désormais entrouvrir la possibilité d’utiliser celles-ci dans le seul cadre de l’apprentissage de l’IAg.

L’interdiction de reproduction de données protégées par le droit d’auteur. L’auteur d’une œuvre de l’esprit (4) jouit sur cette œuvre, du seul fait de sa création, de l’ensemble des droits conférés aux auteurs par le Code de la propriété intellectuelle (CPI). A ce titre, l’auteur d’une œuvre peut notamment s’opposer à toute reproduction de celle-ci, c’est-à-dire à toute fixation matérielle quelle qu’elle soit de son œuvre par tous procédés qui permettent de la communiquer au public d’une manière indirecte. Si l’IAg utilise en grande partie des données publiques, se pose tout de même la question de l’utilisation de ces données lorsqu’elles constituent de telles œuvres de l’esprit bénéficiant de la protection offerte par le droit d’auteur. La collecte et l’intégration de telles données dans les outils d’intelligence artificielle constituent-ils toutefois de tels actes de reproduction ? Eu égard à la définition très large du droit de reproduction, il semblerait qu’il faille répondre à cette question par la positive. En effet, la définition qui en est donnée par le législateur incite à considérer qu’en principe, tout acte de reproduction d’une œuvre doit faire l’objet d’une autorisation préalable de son auteur.
Aussi, en l’absence d’autorisation de la part de leurs auteurs, l’intégration des données d’apprentissage protégées par le droit d’auteur dans l’outil d’IAg pourrait aisément matérialiser un acte de contrefaçon par reproduction. C’est d’ailleurs à ce titre que plusieurs procédures sont en cours aux Etats-Unis. Plusieurs recours collectifs ont dernièrement été déposés en 2023 contre OpenAI et Microsoft, notamment par un regroupement d’écrivains américains – soutenus par la Authors Guild (5) – qui soutiennent que l’algorithme entraînant le robot ChatGPT manie leurs œuvres en violation de leurs droits d’auteur. Le New York Times a lui aussi porté plainte contre OpenAI et Microsoft (6). Il en est de même pour la banque d’images Getty Images qui accuse l’outil Stable Diffusion, développé par Stability AI, de violer ses droits d’auteur. Les procès se multiplient contre les IAg. Si la législation applicable est toute autre aux Etats-Unis, il nous semble toutefois que le dénouement des litiges en cours puisse potentiellement nous aiguiller sur le possible positionnement des juges français.

Exceptions, citations, extraits, …
Intelligence artificielle générative, fair use et exception de courte citation. Si les défendeurs outre Atlantique excipent généralement du concept de fair use, lequel permet l’utilisation loyale d’une œuvre par un tiers, les exceptions au droit d’auteur en France sont strictement délimitées et encadrées par les dispositions du CPI. Aussi, si les droits conférés aux auteurs d’une œuvre de l’esprit sont particulièrement étendus, le législateur les a de longue date assortis d’une liste exhaustive conséquente d’exceptions venant faire obstacle aux droits d’auteur. Parmi celles-ci, à défaut de fair use, certains entendent ainsi défendre l’IAg sur la base de l’exception de courte citation, permettant à tout tiers d’exploiter de courts extraits de l’œuvre dans la mesure où cette exploitation serait notamment justifiée par le caractère pédagogique, scientifique ou d’information de l’œuvre à laquelle elles sont incorporées. Seulement, encore faut-il que le tiers invoquant cette exception indique clairement le nom de l’auteur et la source. Ce que les outils d’IAg ne font pas, et ne peuvent pas faire eu égard à la masse de données sur laquelle se fonde leur entraînement, et surtout au regard du recoupement de l’ensemble de ces informations, lequel rend presque impossible de sourcer chacun des auteurs dont les œuvres sont utilisées.

Fouille de textes et de données limitée
L’évolution des techniques utilisées rend ainsi indispensable l’évolution du droit actuel et de la jurisprudence qui en découlera.
La limitation du droit d’auteur pour la fouille de textes et de données. Sans même anticiper l’arrivée fulgurante de l’intelligence artificielle au début des années 2020, le législateur européen est venu introduire en 2019 – via la directive « Droit d’auteur dans le marché unique numérique » (7) – une nouvelle exception au droit d’auteur en autorisant la fouille de textes et de données (« text and data mining » ou TDM), laquelle trouve ainsi à s’appliquer lorsque les reproductions d’œuvres réalisées ne remplissent pas toutes les conditions de l’exception pour les actes de reproduction provisoires. Seulement, les défenseurs de l’IAg se sont engouffrés dans cette brèche et ont entendu appliquer cette exception à la collecte et à la reproduction des données disponibles en ligne par les systèmes d’intelligence artificielle, afin de légitimer leur utilisation par ces derniers.
C’est ainsi, dans cette logique, que l’AI Act s’approprie le texte de 2019 et applique l’exception aux fins de fouille de textes et de données aux outils d’IAg. Néanmoins, exception à l’exception, le texte prévoit que tout auteur peut anticiper l’utilisation de ses œuvres par l’IA et s’opposer à cette exploitation en l’indiquant par tout moyen (droit de retrait ou opt out), auquel cas l’exception de « text and data mining » ne trouvera plus à s’appliquer. En pareille hypothèse, les systèmes d’IA seront ainsi à nouveau soumis l’obligation d’obtenir l’autorisation expresse de l’auteur afin de procéder à l’exploration de textes et de données sur ses œuvres de façon licite. Pour autant, le considérant 105 de l’AI Act, précise que les détenteurs de droits peuvent choisir de réserver leurs droits sur leurs œuvres ou autres objets pour empêcher l’exploration de texte et de données, « sauf si cela est fait à des fins de recherche scientifique ». Et dans l’article 2 du même AI Act, le sixième point prévoir que « le présent règlement ne s’applique pas aux systèmes d’IA ou aux modèles d’IA, y compris leur production, spécifiquement développés et mis en service aux seules fins de la recherche et du développement scientifiques ».
Nous nous interrogeons toutefois sur la pertinence de ce système d’« opt out » proposé aux auteurs, dans la mesure où il apparaît difficile – voire impossible – de contrôler son respect par les outils d’IA. En effet, comment un auteur peut-il contrôler que son œuvre n’est pas utilisée pour entraîner une intelligence artificielle ? A charge pour l’AI Office – le Bureau européen de l’IA créé par l’AI Act (8) – de rendre public un « résumé des contenus utilisées pour l’entraînement » de chaque IA à usage général (considérants 107 et 108 de l’AI Act, et articles 53d et 56b).
En dépit de sa volonté protectrice, et alors même qu’il n’est pas entré en vigueur, l’AI Act semble donc d’ores et déjà confronté aux difficultés inhérentes aux avancées techniques issues de l’intelligence artificielle.
Contenu généré par l’IAg et contrefaçon. Cela étant, quand bien même la fouille de données est autorisée en vertu du droit européen, cette exception reste cantonnée au seul entraînement des systèmes d’IA, et ne permet pas pour autant à l’outil de générer en fin de processus des données contrefaisantes. Aussi, dans la mesure où les données générées reproduiraient à tout le moins en partie les caractéristiques originales des données d’entraînement, elles ne pourront pas être exploitées sans l’autorisation préalable des auteurs des données d’entraînement, sauf à caractériser un acte de contrefaçon. En effet, il n’est en pratique jamais exclu que l’on puisse reconnaître tout ou partie des éléments issus des données entrantes, et il apparaît ainsi en théorie probable que des contrefaçons par imitation puissent être caractérisées. Néanmoins, dans quelle mesure l’utilisateur de l’IAg sera-t-il averti que la donnée générée contrefait une œuvre antérieure ?

Quid de la rémunération des contenus ?
S’il existe nécessairement une limite au-delà de laquelle les tribunaux pencheront en faveur de la contrefaçon, il est fort à parier que les utilisateurs des outils d’IAg la franchiront bien avant les développeurs à l’origine de ces outils. Les interrogations restent en tout cas nombreuses, comme en témoignent les deux missions lancées en France le 12 avril dernier par le Conseil supérieur de la propriété littéraire et artistique (CSPLA), d’une part sur la rémunération des contenus culturels utilisés par les IA (9) et d’autre part sur la mise en œuvre de l’AI Act (10). @