Le géant Apple se retrouve pris dans la nasse du Digital Markets Act (DMA) : la fin du walled garden

Edition Multimédi@ revient sur l’avis préliminaire que la Commission européenne a notifié le 24 juin à Apple, affirmant que l’App Store viole le règlement européen sur les marchés numériques (DMA). Les enquêtes de Bruxelles visant la Pomme sonnent le glas du « jardin clos » du fabricant d’iPhone.

Le Digital Markets Act (DMA) auquel doit se plier la firme de Cupertino dans l’Union européenne préfigure la fin – du moins dans les Vingt-sept – de son « jardin clos » savamment entretenu depuis seize ans maintenant (soit depuis l’ouverture de l’App Store en juillet 2008). Ce qui se passe en Europe vis-à-vis d’Apple est historique. Et il aura fallu la pugnacité de Margrethe Vestager (photo de gauche), vice-présidente exécutive de la Commission européenne en charge de la politique de concurrence, pour parvenir à enlever les vers du fruit d’ici le 25 mars 2025.

Un « avis préliminaire » non divulgué
« Nous constatons, à titre préliminaire, qu’Apple ne permet pas pleinement d’orienter les consommateurs. C’est pourtant essentiel pour faire en sorte que les développeurs d’applications soient moins dépendants des boutiques d’applications des contrôleurs d’accès et que les consommateurs aient connaissance de meilleures offres », a indiqué Margrethe Vestager.
La Commission européenne indique à Edition Multimédi@ que « l’avis préliminaire est confidentiel et ne peut pas être partagé », même expurgé des informations relevant du secret des affaires. Selon cet avis, la marque à la pomme – qui fait partie des sept contrôleurs d’accès identifiés par la Commission européenne (outre Apple, il y a Alphabet, Amazon, ByteDance, Meta, Microsoft et Booking) – enfreint le Digital Markets Act (DMA) qui est devenu obligatoire pour ces gatekeepers depuis le 7 mars 2024 (1).
En cas d’infraction, la Commission européenne menace d’infliger à Apple une amende pouvant allant jusqu’à 10 % de son chiffre d’affaires mondial total (lequel était de 383 milliards de dollars en 2023). Ces amendes peuvent aller jusqu’à 20 % en cas d’infractions répétées.

Le géant californien, dirigé par Tim Cook (photo de droite) depuis août 2011, a aussitôt réagi le 24 juin dernier à la procédure engagée à son encontre : « Nous avons apporté [au cours des derniers mois] un certain nombre de modifications pour se conformer au DMA en réponse aux commentaires des développeurs et de la Commission européenne. Nous sommes convaincus que notre plan est conforme à la loi et estimons que plus de 99 % des développeurs paieraient le même montant ou moins en frais à Apple en vertu des nouvelles conditions commerciales que nous avons créées. Tous les développeurs qui font des affaires dans l’Union européenne sur l’App Store ont la possibilité d’utiliser les capacités que nous avons introduites, y compris la possibilité de diriger les utilisateurs d’applications vers le Web pour effectuer des achats à un taux très compétitif. Comme nous l’avons fait régulièrement, nous continuerons d’écouter la Commission européenne et de collaborer avec elle », a assuré Apple dans sa déclaration transmise à des journalistes. Mais au-delà de sa réponse médiatique affirmant qu’il n’y a pas d’infractions au DMA, la firme de Cupertino va exercer ses droits de la défense en répondant point par point par écrit aux « constatations préliminaires » dressées par la Commission européenne, estimant qu’il y a violation du DMA.
Que reproche au juste Bruxelles à la Pomme ? Trois pratiques commerciales d’Apple sont mises en cause dans ses relations avec les développeurs d’applications, y compris concernant les règles d’orientation dans l’App Store :
• Aucune condition commerciale d’Apple ne permet aux développeurs et aux éditeurs d’applications ou de services d’orienter librement leurs clients. Par exemple, les développeurs ou les éditeurs ne peuvent pas fournir d’informations sur les prix dans l’application ou communiquer par tout autre moyen avec leurs clients pour promouvoir des offres disponibles sur d’autres canaux de distribution.
• Dans la plupart des conditions commerciales à la disposition des développeurs et des éditeurs d’applications ou de services, Apple ne permet d’orienter les utilisateurs qu’au moyens de liens externes (link-outs) : les développeurs ou les éditeurs d’applications peuvent inclure dans leur application un lien qui redirige le client vers une page web sur laquelle il peut conclure un contrat. Mais…

Plateforme du gatekeeper ou autres canaux …
Ce processus d’orientation au moyen d’un lien externe est soumis à plusieurs restrictions qui sont imposées par Apple et empêchent les développeurs d’applications de communiquer, de promouvoir des offres et de conclure des contrats par le canal de distribution de leur choix.
• Alors qu’Apple peut recevoir des commissions pour faciliter, via l’App Store, l’acquisition initiale d’un nouveau client par les développeurs ou les éditeurs, les frais facturés par Apple vont au-delà de ce qui est strictement nécessaire pour une telle rémunération. Par exemple, Apple facture aux développeurs ou aux éditeurs des frais pour chaque achat de biens ou de services numériques effectué par un utilisateur dans les sept jours suivant l’utilisation du lien à partir de l’application. Pour la Commission européenne, ces trois pratiques commerciales sont illégales au regard du DMA qui oblige les contrôleur d’accès à « permet[tre] aux entreprises utilisatrices de communiquer et de promouvoir leurs offres gratuitement, y compris à des conditions différentes, auprès des utilisateurs finaux acquis grâce à son service de plateforme essentiel ou via d’autres canaux, et de conclure des contrats avec ces utilisateurs finaux, en utilisant ou non à cette fin les services de plateforme essentiels du contrôleur d’accès » (2).

Apple a moins de 8 mois pour répondre
Autrement dit, le groupe Apple enfreint le DMA en ce qu’il n’autorise pas les développeurs ou les éditeurs d’applications ou de services à orienter gratuitement leurs consommateurs vers des offres en dehors de l’App Store. Comme la Commission européenne a prévenu – lorsqu’elle a ouvert son enquête le 24 mars 2024 à l’encontre non seulement d’Apple mais aussi d’Alphabet/Google/YouTube et de Meta/Facebook /Instagram (3) – qu’elle avait l’intention de clore les procédures « dans un délai de 12 mois » à partir de cette date-là. Le verdict tombera avant le 25 mars 2025. Alors que l’avis préliminaire du 24 juin 2024 se focalise sur ce que peuvent faire ou pas les développeurs ou éditeurs d’applications ou de services dans le « jardin clos » de la Pomme, l’enquête ouverte il y a plus de trois mois portait aussi sur la mise en conformité d’Apple avec les obligations liées au choix de l’utilisateur.
A savoir : permettre aux utilisateurs finaux de désinstaller facilement toute application logicielle sur iOS ; permettre aux utilisateurs de modifier facilement les paramètres par défaut sur iOS ; et inciter les utilisateurs à sélectionner effectivement et facilement sur leurs iPhone un autre service par défaut, tel qu’un navigateur ou un moteur de recherche. « La Commission européenne craint que les mesures d’Apple, y compris la conception de l’écran de sélection du navigateur web, puissent empêcher les utilisateurs d’exercer réellement leur choix de services au sein de l’écosystème Apple, en violation […] du règlement sur les marchés numériques ». Le DMA oblige en effet le gatekeeper à « autorise[r] et permet[tre] techniquement la désinstallation facile par les utilisateurs finaux de toute application logicielle dans son système d’exploitation, sans préjudice de la possibilité pour ce contrôleur d’accès de restreindre cette désinstallation si elle concerne une application logicielle essentielle au fonctionnement du système d’exploitation ou de l’appareil et qui ne peut techniquement pas être proposée séparément par des tiers » (4). Apple est tenu d’autoriser et permettre techniquement la modification facile par les utilisateurs finaux des paramètres par défaut de son système d’exploitation iOS, son assistant virtuel Siri et de son navigateur Internet Safari, qui dirigent ou orientent les utilisateurs finaux vers des produits et des services proposés par la Pomme.
La question du « par défaut » devient essentielle pour la concurrence : au moment de leur première utilisation de son moteur de recherche en ligne, de son assistant virtuel ou de son navigateur web, Apple doit obligatoirement inviter les utilisateurs finaux à choisir « dans une liste des principaux fournisseurs de services disponibles » le moteur de recherche en ligne, l’assistant virtuel ou le navigateur Internet vers lequel le système d’exploitation du contrôleur d’accès dirige ou oriente les utilisateurs « par défaut », et le moteur de recherche en ligne vers lequel l’assistant virtuel et le navigateur Internet du contrôleur d’accès dirige ou oriente les utilisateurs « par défaut ».
Le jardin clos, que Edition Multimédi@ avait surnommé en 2010 l’«”iPrison” dorée » (5), c’est fini. Du moins dans l’Union européenne. A trop vouloir verrouiller son walled garden et à abuser de sa position dominante, la Pomme – dont le siège européen « Apple Operations International », dirigé par Cathy Kearney (photo ci-contre), est basé à Cork en Irlande – a déjà dû payer une amende salée de 1,8 milliard d’euros infligée en mars 2024 à la suite d’une enquête engagée en juin 2020 sur une plainte de Spotify (6). Ce fut la première enquête.

Fin du walled garden d’Apple en Europe
La seconde en cours sur les pratiques commerciales de l’App Store pourrait déboucher sur une sanction financière bien plus élevée. Et une troisième enquête a parallèlement été lancée le 24 juin, portant cette fois sur les nouvelles conditions contractuelles et commissions « CTF » (7) imposées depuis mai dernier par Apple aux développeurs. En outre, toujours vis-à-vis du DMA, l’iPadOS a été considéré le 29 avril 2024 par la Commission européenne comme étant bien un gatekeeper (8), comme le sont déjà depuis le 5 septembre 2023 l’iOS des iPhone, le navigateur Safari et la boutique en ligne App Store. Aux Etats-Unis cette fois, où Epic Games conteste l’« app tax » de 30 % d’Apple (9), le DoJ poursuit son enquête. @

Charles de Laubier

TV : l’Arcom a l’avenir de la TNT entre ses mains

En fait. Du 8 au 17 juillet, l’Arcom auditionne les désormais 24 candidats (au lieu de 25 après le désistement d’Altice Média) à 15 fréquences de la TNT en France, pour des chaînes de télévision nationales. Les 15 chaînes dont l’autorisation d’émettre expire en 2025 sont en lice pour tenter d’être réautorisées.

En clair. Ils étaient 25 candidats déclarés recevables par l’Arcom depuis le 22 mai pour tenter soit pour seize d’entre eux de se maintenir sur leur fréquence de la TNT (TFX, TMC, LCI, BFMTV/Altice Média, BFMTV/CMA CGM, NRJ 12, C8, Canal+, Canal+ Sport, Canal+ Cinémas, CNews, Gulli, Paris Première, CStar, Planète+, W9), soit pour neuf d’entre eux de faire leur entrée en obtenant une fréquence de la TNT (Le Média TV, L’Express TV, RéelsTV, OF TV, Mieux, OP TV, La Chaîne Histoire/LCH, Humour TV, BATV).
Ils ne sont plus que 24 candidats depuis le 3 juillet avec le désistement – auprès de l’Arcom (1) – d’Altice France qui portait le projet de renouvellement de la chaîne d’information en continu BFMTV, dont la filiale du groupe du milliardaire Patrick Drahi était jusqu’au 2 juillet encore propriétaire. Car c’est à cette date là que BFMTV est tombée dans l’escarcelle d’un autre milliardaire, Rodolphe Saadé, dont le groupe maritime CMA CGM a finalisé l’acquisition de 100 % de la société Altice Média (2), éditrice des chaînes BFMTV, RMC Découverte et RMC Story ainsi que des radios RMC et BFM Business.

L’Arcom et l’Autorité de la concurrence avaient donné leur feu vert conditionné à des engagements du nouveau propriétaire, respectivement le 27 juin (3) et le 28 juin (4). « L’audition publique liée à cette candidature, prévue le 15 juillet 2024 à 10h45, est donc annulée. La société BFM TV reste candidate dans le cadre de cet appel aux candidatures, avec un dossier ayant la société CMA CGM pour actionnaire de référence », a précisé le régulateur de l’audiovisuel. L’audition de BFMTV sous l’égide de CMA CGM est maintenue, elle, au 16 juillet à 9h. Pour l’ensemble des 24 candidats, ces auditions établies par tirage au sort s’étaleront du 8 au 17 juillet. Ce sont des auditions publiques, qui seront aussi retransmises en direct sur le site web de l’Arcom (5).
CNews et C8, deux chaînes du groupe Canal+ appartenant au milliardaire Vincent Bolloré (propriétaire du groupe Vivendi, maison mère de Canal+), risquent de se voir retirer leur autorisation d’émettre pour, comme le pointe un rapport d’enquête de l’Assemblée nationale (6), non-respect de leur convention. Parmi les neuf nouveaux entrants candidats, mentionnons Le Média TV (7), L’Express TV, RéelsTV du milliardaire Daniel Kretinsky (8) ou encore OF TV de Ouest-France. Il y aura bien sûr des gagnants et des perdants. @

Le géant du e-commerce Amazon, fondé par Jeff Bezos, fête ses 30 ans et la 10e édition de ses « Prime Day »

C’est la fête à Amazon ! Créé dans un garage près de Seattle le 5 juillet 1994 par Jeff Bezos – proche de redevenir la personne la plus riche du monde –, le site web de vente en ligne Amazon a 30 ans. Devenu le numéro mondial du e-commerce, « Amazon.com, Inc. », coté en Bourse depuis 1997, s’est largement diversifié.

Cela fait trois ans ce 5 juillet que Jeff Bezos (photo) – né Jeffrey Preston Jorgensen (60 ans cette année) et adopté à l’âge de quatre ans par un émigré cubain (Miguel Bezos), avec lequel sa mère s’était remariée – a passé en 2021 les rênes de son empire Amazon à Andy Jassy. Celui-ci est depuis lors le second directeur général en 30 ans d’existence du site Internet de commerce en ligne, devenu un géant diversifié du numérique. C’est justement aussi ce 5 juillet que la firme au sourire – s’étirant de la lettre A au Z de son logo officiel depuis l’année 2000 – fête sa création par Jeff Bezos, le 5 juillet 1994, dans le garage d’une maison louée à Bellevue dans la banlieue de Seattle (Etat de Washington). Après avoir travaillé dans successivement une fintech (Fitel), une banque (Bankers Trust) puis un fonds spéculatif (D. E. Shaw & Co), le jeune ingénieur – diplômé huit ans plus tôt de l’université de Princeton (1986) – décide de cofonder avec sa femme MacKenzie Scott (rencontrée lors de son dernier emploi) une librairie en ligne pour vendre des livres. Son entreprise s’appelle d’abord « Cadabra » mais, certains comprenant « cadavre », il la rebaptise quelques mois après « Amazon », du nom du plus grand fleuve mondial qu’est l’Amazone (« Amazon » en anglais) en Amérique du Sud, correspondant bien à son ambition d’en faire « la plus grande librairie du monde ». Et en commençant par un « A », Amazon se retrouve en haut des listes de sites web !

Presse : le kiosque digital PressReader a 25 ans

En clair. Basée à Richmond, dans la province de Colombie-Britannique au Canada, la société PressReader – ex-NewspaperDirect, rebaptisée ainsi en novembre 2013 – a son siège européen à Dublin en Ireland depuis 2017. Elle a été cofondée en 1999 par Alexander Kroogman, lequel a passé le flambeau de PDG à Ruairí Doyle en 2022 pour s’en tenir à un rôle de directeur exécutif au conseil d’administration.
A ses débuts, NewspaperDirect était un service d’impression à la demande de journaux, qui s’adressait déjà aux bibliothèques publiques, universités et institutions gouvernementales, ainsi qu’aux « hommes d’affaires » pour leurs lectures en chambre d’hôtels lors de leurs déplacements professionnels. L’offre Printon-Demand des débuts sera étendue aux aéroports, mais les éditeurs resteront frileux envers ce nouveau service digital. La version web PressDisplay est lancée en 2003, puis elle est renommée par la suite PressReader pour devenir un kiosque « all-you-can-read » donnant un « accès illimité », pour un prix unique, à des milliers de contenus presse. Aujourd’hui, le réseau de partenaires « B2B » – hôtels (1), avions (2), bibliothèques publiques (3), bateaux de croisière (4), … – rend accessible la plateforme dans 10.514 endroits dits hotspots dans plus de 140 pays.

Moyennant 29.99 euros par mois, ce kiosque numérique (Web, Android, iOS) dispose à ce jour de 7.376 titres sous la forme de journaux, de magazines ou même d’ebooks, grâce à des accords passés avec plus 1.500 éditeurs. Dernier en date : Le Monde, qui a rejoint les quotidiens espagnol El País, britannique The Guardian, américain New York Times, et bien d’autres. Le premier quotidien français a noué avec Press-Reader un partenariat annoncé le 23 mai pour y mettre « l’édition quotidienne du Monde, ainsi qu’une édition compilée du contenu en langue anglaise » (5).
Pour Le Monde, c’est une première après avoir toujours refusé d’aller sur les kiosques numériques tels que Cafeyn ou ePress (Readly). Contacté par Edition Multimédi@, Louis Dreyfus, président du directoire du groupe Le Monde, s’est défendu d’avoir changé d’avis : «Le Mondeet ses publications ne seront jamais sur des kiosques BtoC [s’adressant aux consommateurs, ndlr] qui sont destructeurs de valeur. Le Monde est commercialisé en BtoB [via des professionnels, ndlr] sur un kiosque numérique[PressReader] à l’intention de quelques secteurs. Et seulement ça ». @

Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet.

Exception de Text and Data Mining
Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés. Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur prochaine du règlement européen sur l’intelligence artificielle – l’AI Act dont le texte final (1) a été signé le 13 juin 2024 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles.

En effet, l’article 53 et l’annexe XI de l’AI Act imposent, entre autres, aux fournisseurs de modèles d’IA à usage général (2) de mettre à disposition des informations sur les données utilisées pour l’entraînement de ces modèles, au moyen d’un document-type qui sera mis à disposition par le bureau de l’IA (AI Office). Ils doivent notamment indiquer comment ces données ont été obtenues et sélectionnées, ainsi que toutes les mesures prises pour détecter les sources de données inadéquates. Pour pouvoir se conformer de manière sereine à ces nouvelles exigences (3), il est indispensable de s’assurer que les données d’entraînement ont été récupérées et collectées dans le respect des droits de propriété intellectuelle et du RGPD, sous peine de risquer des actions en contrefaçon ou des procédures de sanction devant les autorités de contrôle (4). En effet, le contenu d’un site Internet qu’un acteur entend scrapper (« moissonner ») pour constituer une base de données d’entraînement peut à la fois contenir des données à caractère personnel, mais également être protégé au titre du droit d’auteur (5) ou du droit des bases de données (6). Or, par principe, toute reproduction et utilisation d’un contenu protégé par un droit de propriété intellectuelle nécessite d’obtenir l’autorisation du titulaire des droits concernés. Néanmoins, afin de favoriser le développement de l’IA, le code de la propriété intellectuelle (CPI) a introduit, pour le droit d’auteur et le droit des producteurs de bases de données, les exceptions de fouilles de textes et de données (dites de Text and Data Mining) qui permettent de scrapper des données à des fins d’entraînement des modèles, sous réserve de respecter un certain nombre de conditions. Il y a en réalité deux régimes : la fouille de textes et de données à des fins de recherche scientifique (7) et celle à des fins diverses (8).
L’exception de fouille à des fins de recherches scientifique présente l’avantage d’être un droit absolu (le titulaire des droits ne peut pas s’y opposer), sous réserve que l’accès aux données soit réalisé de manière licite (9). Néanmoins, son périmètre est relativement restreint puisque seuls peuvent s’en prévaloir certains acteurs limitativement énumérés (10). La plupart des fournisseurs de systèmes d’IA ne peut donc pas mobiliser cette exception et doit se rabattre sur l’exception générale dite à des fins diverses. Pour pouvoir invoquer le bénéfice de cette exception générale, le fournisseur de système d’IA doit accéder aux données de manière licite et s’assurer que le titulaire des droits de propriété intellectuelle ne s’y est pas opposé.

« Moissonnage » et données personnelles
Les textes précisent que l’opposition du titulaire des droits « n’a pas à être motivée et peut être exprimée par tout moyen », notamment « au moyen de procédés lisibles par machine, y compris des métadonnées, et par le recours à des conditions générales d’utilisation » (11). Pour l’opposition via des procédés techniques, plusieurs outils existent (Robot.txt, AI.txt, TDMRep, …). En pratique, cela signifie que pour pouvoir scrapper les données des sites Internet à des fins d’entraînement des modèles, les fournisseurs de systèmes d’IA ne doivent pas contourner les éventuels dispositifs de protection existants (par exemple un accès restreint par un compte utilisateur) et doivent s’assurer, au moment de l’extraction des données, que les conditions générales d’utilisation (CGU) et/ou mentions légales du site Internet ne contiennent pas de clause interdisant l’extraction des données et que les métadonnées du site Internet n’expriment pas non plus une telle interdiction. L’AI Act confirme ce dernier point (12).
Lorsqu’un titulaire de droits s’est opposé à l’extraction de ses données, le fournisseur de système d’IA n’a d’autre choix que d’obtenir une autorisation expresse (13) au moyen d’un accord de licence ou de partenariat, comme ont récemment pu le faire OpenAI avec Le Monde, Die Welt et El País (14). Une fois ces vérifications opérées, le fournisseur de système d’IA devra suivre des étapes supplémentaires si le contenu qu’il souhaite « moissonner » contient des données à caractère personnel, afin de respecter le RGPD.

Base légale de l’intérêt légitime
Ces derniers mois, la Cnil a publié plusieurs fiches pour guider les fournisseurs de systèmes d’IA (15) au sein desquelles elle clarifie comment appliquer les principes clefs aux spécificités de l’IA. Elle y admet qu’il est possible de fonder les traitements d’entraînement des modèles d’IA sur la base légale de l’intérêt légitime, notamment lorsque les données sont collectées à partir de sources publiques (16), sous réserve de mener une analyse au cas par cas permettant de documenter la légitimité de l’intérêt poursuivi, sa nécessité et le fait qu’il n’y a pas d’atteinte disproportionnée aux intérêts, droits et libertés des personnes. Pour autant, en juin 2024, Noyb a porté plainte – auprès de onze « Cnil » en Europe – contre Meta dont il conteste la faculté de se fonder sur l’intérêt légitime pour récupérer les données de Facebook et Instagram afin d’entraîner ses modèles d’IA. Dans l’attente, Meta a stoppé son projet (17).
La première étape avant de scrapper des données à caractère personnel est de définir la finalité du traitement, à partir de laquelle l’analyse de conformité aux principes de protection des données personnelles pourra être réalisée. A partir de cette finalité (créer une base de données afin d’entraîner des modèles d’IA permettant d’évaluer l’appréciation d’œuvres par le public, développer un LLM capable de répondre à des questions, générer du texte, effectuer des résumés, etc,…), le fournisseur de modèles d’IA devra s’assurer du respect du principe de minimisation, en ne collectant que les données pertinentes et nécessaires pour atteindre son objectif. Concrètement, cela signifie qu’il doit s’interroger en amont sur les catégories de données nécessaires pour l’entraînement du modèle d’IA. En pratique, il devra définir les catégories de données à collecter et mettre en place des filtres permettant d’exclure la collecte de certaines données. Dans sa fiche dédiée au web scraping (18), la Cnil précise que dans l’hypothèse où des données non pertinentes seraient collectées malgré les filtres mis en place, il convient de supprimer ces données, immédiatement après leur collecte ou dès elles ont été identifiées. Elle appelle également à la prudence sur la collecte automatique de données sensibles en invitant les fournisseurs à appliquer des filtres permettant d’écarter la collecte de données sensibles (19) non pertinentes ou à exclure de leurs activités de scraping certains sites comportant par nature ce type de données.
Respecter le RGPD suppose, par ailleurs, d’informer les personnes concernées et de faciliter l’exercice de leurs droits. La Cnil reconnaît (20) qu’en cas de collecte parweb scraping, une information individuelle des personnes pourrait, dans certains cas, être disproportionnée et donc non obligatoire. Elle recommande alors au fournisseur du système d’IA de fournir une information générale (par exemple au sein de sa politique de confidentialité) contenant notamment les catégories de sites sources utilisés avec des liens hypertextes vers ceux-ci, en proposant un modèle dédié. Pour les droits des personnes, elle rappelle qu’un responsable du traitement n’a pas à conserver ou collecter des informations supplémentaires qui ne lui sont pas nécessaires dans le seul but de permettre l’exercice des droits. La Cnil propose néanmoins des exemples de mesures que les fournisseurs de modèles d’IA pourraient mettre en place pour faciliter l’exercice des droits (comme la conservation de métadonnées ou d’informations sur la source des données pour faciliter la recherche d’une personne au sein de la base ou l’indication aux personnes des données à fournir pour les identifier).
La Cnil propose enfin de mettre en place des mesures supplémentaires pour garantir l’équilibre attendu de ces traitements basés sur l’intérêt légitime. Certaines mesures découlant des règles précédemment citées semblent réalisables : exclure par défaut la collecte à partir de certains sites contenant des données intrusives ; prévoir la possibilité de s’opposer au traitement de manière discrétionnaire ; appliquer des procédés d’anonymisation ou de pseudonymisation après la collecte des données. D’autres semblent moins pragmatiques.

AI Office : recommandations très attendues
Certains acteurs pourraient ainsi saisir l’opportunité de remonter leurs questionnements, difficultés pratiques, appréciation des règles dans le cadre de la consultation publique à laquelle sont soumises certaines fiches jusqu’au 15 septembre 2024 (21) ou répondre au questionnaire (22). A l’aune de l’entrée en vigueur de l’AI Act, les fournisseurs de modèles d’IA à usage général attendront donc les précieuses recommandations et modèles du bureau de l’IA, tout récemment créé (23), sur les documents à produire pour les sources de données d’entraînement, afin de leur permettre d’engager les travaux nécessaires à la compilation de ces informations. @