L’Europe veut encadrer les algorithmes pour retirer les contenus illicites et éviter les « faux positifs »

Le futur règlement européen Digital Services Act (DSA) veut encadrer l’utilisation d’algorithmes dans la gestion des contenus sur les réseaux sociaux et d’en retirer ceux « jugés » illicites. Mais le risque de « faux positifs » (bloqués à tort) va poser des problèmes aux régulateurs et aux juges.

Par Winston Maxwell*, Telecom Paris, Institut polytechnique de Paris

Bloquer la publication d’un contenu est une décision grave, portant potentiellement atteinte à l’un des droits fondamentaux les plus importants pour la démocratie : la liberté d’expression. Pour la préserver, le droit constitutionnel américain et français exigent généralement qu’une décision interdisant la diffusion de contenus soit prise par une autorité judiciaire, et qu’elle le soit prise après la publication du contenu, non avant (1).

Blocage automatique : quelle légitimité ?
Les plateformes ne s’embarrassent pas de ces principes, filtrant des contenus avant leur publication par l’utilisation de robots. Faut-il s’en inquiéter ? S’agit-il d’une violation des droits fondamentaux des utilisateurs ? Le recours aux algorithmes pour identifier des contenus illégaux est devenu incontournable en raison de la quantité des informations publiées par les utilisateurs des réseaux sociaux. Même si la loi n’impose pas aux plateformes une obligation générale de surveillance des contenus, laquelle reste interdite (2), celles-ci ont mis en place des systèmes automatisés de détection de contenus illicites. Le champ d’application de ces outils s’est élargi grâce à l’émergence de modèles d’apprentissage automatique (machine learning), capables d’identifier des images et textes plus complexes, de comprendre le contexte d’une phrase ou d’une image, voire de juger de la véracité d’une affirmation.
Le futur règlement européen Digital Services Act (DSA) met en lumière les multiples rôles d’algorithmes dans la gestion de contenus sur les réseaux sociaux. Ces algorithmes identifient des contenus illicites et procèdent à leur retrait avec ou sans intervention humaine ; ils signalent l’existence d’utilisateurs potentiellement abusifs du service ; ils organisent la présentation de contenus et de publicités aux utilisateurs en fonction de leurs profils. Le règlement DSA propose d’encadrer l’utilisation d’algorithmes, surtout ceux utilisés pour retirer des contenus illicites. Les outils sont calibrés pour bloquer automatiquement, et sans intervention humaine, des contenus les plus manifestement illégaux. En cas de doute, la machine enverra le cas à des décisionnaires humains. Une grande partie des décisions de retrait de contenus sont aujourd’hui prises sans intervention humaine (3), ce qui soulève la question de leur légitimité et des garanties qui les entourent. Le DSA prévoit des garanties procédurales et de transparence similaires à celles qui existent pour les décisions prises par l’Etat. Le droit constitutionnel impose à l’Etat des règles contraignantes en matière de blocage de contenus illicites, alors que les plateformes, elles, ne sont pas directement concernées par ces contraintes constitutionnelles. Cependant, les plateformes dites « structurantes » ont un pouvoir quasi-étatique en matière de liberté d’expression. Il est donc logique d’étendre à ces plateformes les règles de transparence et de procédure qui s’appliquent aux décisions de l’Etat.
En 2018, les organisations de défense des droits civiques aux Etats-Unis ont élaboré des principes minimaux de transparence et de procédure équitable qui doivent s’appliquer aux décisions de retrait de contenus ou de suspension de comptes sur les réseaux sociaux. Appelés « Santa Clara Principles » (4), ces principes non-contraignants recommandent la publication par chaque plateforme numérique de données détaillées sur les alertes, les décisions de retrait et de suspension. Ils prévoient la notification aux utilisateurs affectés par les décisions de retrait, la publication de règles claires sur les types de contenus interdits sur la plateforme, la mention de raisons du retrait, la fourniture d’informations sur l’utilisation ou non d’un outil automatique, et une procédure efficace de contestation devant un décisionnaire humain différent de la personne qui a pris la décision initiale. Les Santa Clara Principles (SCP) reprennent, pour les adapter aux plateformes, une partie des règles constitutionnelles de « due process » aux Etats-Unis qui s’appliquent aux décisions, notamment algorithmiques, de l’Etat.

Le DSA va plus loin que les « SCP »
Le projet de règlement DSA rendrait contraignant un certain nombre des SCP, et notamment l’obligation d’informer l’utilisateur que son contenu a été retiré et de lui fournir une explication sur les raisons du retrait. La notification doit également mentionner l’utilisation éventuelle d’un outil automatique, et fournir des informations claires sur la possibilité de contester la décision. Le DSA exige une procédure efficace pour gérer les contestations d’utilisateurs, une procédure qui ne peut pas s’appuyer uniquement sur des moyens automatisés. Les utilisateurs peuvent donc contester un retrait devant un décisionnaire humain. Le DSA va au-delà des SCP en matière de transparence algorithmique, en exigeant la publication par les plateformes structurantes d’information sur les objectifs poursuivis par l’algorithme, les indices de performance, et les garanties entourant son utilisation.
Le projet de loi français sur le « respect des principes de la République », adopté par l’Assemblée nationale le 16 février dernier et actuellement examiné au Sénat (5), va plus loin encore en prévoyant la communication au Conseil supérieur de l’audiovisuel (CSA) des paramètres utilisés par les outils automatisés, des méthodes et des données utilisées pour l’évaluation et l’amélioration de leur performance.

Algorithmes, « faux positifs » et censure
La performance des algorithmes sera un sujet-clé pour le régulateur. Quel est le niveau acceptable de « faux positifs », à savoir des contenus bloqués à tort ? On sait que les tribunaux n’apprécient guère les faux positifs en matière de liberté d’expression (lire encadré ci-dessous) et qu’un algorithme d’apprentissage automatique va forcément générer des faux positifs. Le niveau de faux positifs dépendra notamment du niveau de sensibilité de l’algorithme dans la détection de « vrais » positifs, par exemple une vraie vidéo terroriste. Si l’on réduit le nombre de faux positifs, on va nécessairement réduire la sensibilité de l’algorithme dans la détection de vrais cas de contenus illégaux. Le bon équilibre entre les faux positifs et les faux négatifs sera un sujet délicat, et le niveau d’équilibre sera différent selon le type de contenus. Laisser passer la vidéo d’un acte terroriste du type Christchurch aura un coût très élevé pour la société, alors que laisser passer un morceau de musique protégé par le droit d’auteur sera a priori moins dommageable.
Les taux d’erreurs algorithmiques peuvent varier en fonction de la langue utilisée – un algorithme d’analyse de textes sera généralement plus performant en anglais – et peuvent également refléter les biais présents dans les données d’entraînement. Les algorithmes apprennent à partir des exemples de contenus retirés précédemment par les analystes humains. Ces analystes humains sont faillibles. Ils ont leur propre biais – biais culturels, linguistiques, ethniques, de genre – et commettent eux-aussi des erreurs d’appréciation qui seront reproduits ensuite par les algorithmes (6). Ainsi, il faut veiller non seulement au « bon » niveau de faux positifs et de faux négatifs selon le type de contenu, mais également vérifier que le niveau de perfor-mances de l’algorithme ne varie pas selon la couleur de la peau ou le sexe des personnes impliquées, selon la langue utilisée, ou selon le type de discours haineux (7). Ces multiples équilibres devraient être abordés dans un premier temps dans les études de risques systémiques conduites par les plateformes structurantes, en application de l’article 26 du futur règlement DSA en Europe. Ces études devront analyser l’impact des algorithmes d’identification et de retrait de contenus sur les droits fondamentaux. Ainsi, les plateformes devront proposer des solutions techniques et humaines pour concilier des objectifs – souvent contradictoires – liés à la mise en place d’un système de détection performant qui respecte en même temps la liberté d’expression, la protection des données personnelles et la protection contre les discriminations. Actuellement, le projet de règlement DSA prévoit que la Commission européenne sera le régulateur principal pour les plateformes structurantes. Celle-ci pourra émettre des recommandations relatives aux systèmes algorithmiques. Mais la manière de gérer les tensions entre la liberté d’expression et d’autres droits est avant tout une affaire nationale, dépendant du contexte, de l’histoire et de la culture de chaque pays (8).
En France, le CSA serait mieux placé que la Commission européenne pour évaluer les systèmes algorithmiques mis en place par les grandes plateformes pour analyser des contenus destinés au public français. Le paramétrage des algorithmes devra nécessairement refléter ces circonstances locales, et le contrôle de ces paramètres relèverait plus naturellement de la compétence du régulateur national. Un contrôle national de ces outils renforcerait en revanche le morcèlement des approches réglementaires entre Etats membres, et nécessiterait donc un système de coordination au niveau européen similaire à ce qui existe pour la régulation des télécoms et le RGPD. @

* Winston Maxwell, ancien avocat, est depuis juin 2019
directeur d’études Droit et Numérique à Telecom Paris.

FOCUS

Le droit est allergique aux surblocages
Le droit constitutionnel est peu tolérant aux « faux positifs » en matière de liberté d’expression. Les risques de surblocage ont été soulignés par la Cour suprême des Etats-Unis dans l’affaire « Reno c. ACLU » (9) dans les années 1990, et par la Cour de justice de l’Union européenne (CJUE) dans les affaires « Scarlet c. Sabam » (10) en 2011 et « Sabam c. Netlog » (11) en 2012. Ces deux dernières affaires concernaient la mise en place, à la demande d’un tribunal belge, d’un dispositif simple pour bloquer des contenus protégés par le droit d’auteur, s’appuyant sur un procédé de « hash » pour identifier les fichiers contrevenants.
La CJUE a considéré que ce procédé créait une atteinte disproportionnée à la protection des données à caractère personnel, mais également à la liberté d’expression en raison du risque de surblocage. L’outil serait incapable de détecter s’il s’agissait d’une citation, d’une parodie ou d’une autre utilisation permises par l’une des exceptions du droit d’auteur. Plus récemment, le Conseil constitutionnel a annulé deux dispositions de la loi française « Avia » (contre la cyberhaine) en raison du risque de surblocage de contenus « non manifestement illicites » (12). Pour des contenus faisant l’apologie du terrorisme, le Conseil constitutionnel a considéré que les injonctions de l’autorité administrative (13) ne constituaient pas une garantie suffisante et que les opérateurs de plateformes ne devaient pas suivre ces injonctions de manière automatique. @

Rémunérer les internautes – pour l’utilisation de leurs données personnelles – fait son chemin

Si c’est gratuit, c’est vous le produit ! Mais les internautes ne sont plus dupes : leurs données personnelles sont « l’or noir du XXIe siècle » et ils comptent bien se faire rémunérer pour leur exploitation ou pour visualiser de la publicité. Les start-up de la monétisation des données se multiplient.

La start-up française Tadata va avoir deux ans en fin d’année. Cet été, la Cnil (1) a clôturé l’enquête qu’elle avait lancée au printemps à son encontre après avoir été « alertée » par l’Internet Society France (Isoc France) en février dernier. Cette association qui représente les internautes dans les instances de la gouvernance de l’Internet en France et dans le monde, a décrété un postulat : les données personnelles procèdent d’un droit fondamental et, à ce titre, elles ne peuvent être vendues ou faire l’objet d’une monétisation.

Cnil pour, gouvernement et CNNum contre
L’Isoc France, présidée par Nicolas Chagny depuis cinq ans, a reproché à la jeune pousse parisienne, fondée fin 2018 par Alexandre Vanadia et Laurent Pomies, de justement proposer à un public de jeunes internautes de gagner de l’argent contre le partage de leurs données personnelles. Et l’association de « regretter l’approche simpliste et opaque du gain d’argent facile et rapide (…) ciblant un public vulnérable ». Tadata se présente comme « la première plateforme de monétisation des données personnelles ». Le sang de l’Isoc France n’avait fait qu’un tour, tout en affirmant constater « des non-conformités » au regard notamment du règlement européen sur la protection des données personnelles (RGPD), avait donc « alerté immédiatement la Cnil selon un principe de précaution, avant la montée en puissance d’un tel service » (2). Mais après quelques mois d’investigation, la Cnil a informé en juillet dernier la société qu’elle avait finalement classé sans suite cette affaire, en clôturant la procédure sans aucune sanction (3), la société s’étant mise en conformité avec le RGPD entre autres aspects juridiques. « La Cnil nous a même invité à participer à des échanges et débats sur la thématique de la monétisation des données personnelles avec ses équipes », indique Christel Monge (photo de gauche), présidente de Tadata, à Edition Multimédi@. Le gendarme des données valide donc un nouveau modèle économique des données, là où le gouvernement est plutôt contre la vente des données personnelles. En mars 2018, à la suite d’un rapport « Mes data sont à moi » du think tank libéral Génération Libre prônant la « patrimonialité des données numériques » et leur rémunération (4), Mounir Mahjoubi, alors secrétaire d’Etat au Numérique, avait déclaré lors d’un débat du Syntec Informatique : « Je suis contre toute propriété et vente des données personnelles ». Quant au Conseil national du numérique (CNNum), dans un rapport de 2017, il avait déjà jugé ce « système patrimonial pour les données à caractère personnel » comme « une proposition dangereuse » (5). Avec ce feu vert explicite de la Cnil, la plateforme Tadata met désormais les bouchées double : elle propose donc aux 15- 25 ans de lui faire part d’informations personnelles de leur choix : centres d’intérêt, habitudes de consommation, besoins actuels, … L’internaute est invité à remplir des formulaires. Ensuite, les annonceurs auxquels sont transmis ces données pourront retenir des profils pour utiliser leurs données, contre de l’argent. L’internaute consentant accepte ainsi de « céder l’exploitation » de ses données personnelles « pour une durée de deux ans, dans le cadre d’une licence d’utilisation concédée aux annonceurs ». L’utilisateur a le choix entre être payé par virement sur un compte bancaire (Iban à renseigner à l’inscription), soit par carte cadeau où seront crédités chaque mois les gains obtenus. Tadata a passé un partenariat avec la société Wedoogift, qui permet aux bénéficiaires de dépenser leurs « cartes cadeaux » – valables chacun un an – dans plus de 500 enseignes physiques, dont des cinémas, et plus de 150 sites Internet. Tadata se positionne implicitement comme un anti- GAFAM qui s’arrogent des droits d’exploitation massive de données en échange de la gratuité de leurs services souvent incontournables et en position dominante. « Tous les jours, les acteurs d’Internet utilisent tes données personnelles à ton insu et se font de l’argent sur ton dos ! Avec Tadata, dis “Stop” : reprends le contrôle de tes données perso et gagne de l’argent avec ! », lance la plateforme de monétisation.

Start-up Tadata, My Data, Polymate, …
En contrepartie de son autorisation, le jeune internaute perçoit une quote-part de la redevance perçue par Tadata en vertu des licences d’utilisation conclues auprès de clients (dont les annonceurs), quote-part qui sera comprise « entre 3 et 5 euros » à chaque licence concédée pour l’utilisation par le client d’une base de données contenant des données à caractère personnel (DCP) du jeune concerné. Tadata n’est pas la seule jeune pousse, loin de là, à vouloir monétiser les données personnelles. Toujours en France, à La Rochelle cette fois, My Data – alias « My Data is Rich » (MDiR) – propose de « transformer vos données en royalties » en se présentant comme un tiers de confiance « pour la collecte, la gestion, la protection et la valorisation de données personnelles », indépendant des GAFAM, qui fait le lien entre les « auteurs de données » (essentiellement les particuliers) et les « consommateurs de données personnelles », à savoir les entreprises et tout organisme. MDiR, qui compte « plusieurs milliers de personnes », redistribue à ces « contributeurs » 50 % des gains engendrés par la valorisation de leurs données. « Nous ne sommes pas vendeur de données mais tiers de confiance. Les données sont pseudonymisées et ne sont identifiées auprès d’une entreprise tierce qu’après un droit d’usage accordé par la personne concernée », explique son président Eric Zeyl à Edition Multimédi@. Il l’assure : cette approche permet à chacun d’être « enfin un acteur éclairé et consentant de l’utilisation de ses données », tandis que les entreprises disposent ainsi de solutions « RGPD by design » pour développer des parcours clients ou prospects « data responsables ». La jeune pousse rocheloise a annoncé miseptembre son rapprochement avec le groupe Doxsa (6).

Brave rémunère en cryptomonnaie
Autre start-up française du « données contre royalties » : Polymate, basée à Bailly Romainvilliers (en région parisienne) et présidée par Armel Satchivi (photo de droite), qui revendique être le « premier réseau social géolocalisé qui rémunère ses utilisateurs ». Alors que YouTube (Google) ou, plus récemment, TikTok (ByteDance) sont des mégaplateformes qui rémunèrent leurs créateurs et influenceurs en fonction d’un grand nombre d’abonnés à « leur chaîne » ou de volume d’heures diffusées sur le réseau social, Polymate monnaye la data géolocalisée de ses utilisateurs devenus d’office « influenceurs ». « Un tag est une vidéo, une image ou un texte, qui a pour particularité d’être géolocalisé et de n’être visible que dans un rayon de 100 mètres autour de son emplacement. Seuls les autres “Polymaters” situés à proximité pourront ainsi voir, commenter et partager les tags, et contacter leurs auteurs », explique Armel Satchivi à Edition Multimédi@. Seuls les autres Polymaters situés à proximité pourront ainsi voir, commenter et partager les tags, et contacter leurs auteurs. Du côté des navigateurs web cette fois, Brave permet aux utilisateurs de récupérer les tokens – des jetons – générés en l’utilisant et d’obtenir ainsi une rémunération pour les publicités dont ils autorisent l’affichage. La start-up Brave Software a été créée il y a cinq ans maintenant par Brendan Eich, qui fut cofondateur de Mozilla (Firefox) et créateur du JavaScript. Aujourd’hui, le navigateur Brave revendique près de 20 millions de « braves » par mois dans le monde (19 millions en octobre précisément, contre 12 millions en mai dernier). « Votre attention est précieuse. Gagnez de l’argent en visualisant des publicités qui respectent la vie privée, puis donnez à votre tour pour soutenir les créateurs de contenu que vous aimez », explique l’éditeur de ce navigateur open source construit à partir de Chromium de Google. Fini les publicités envahissantes en naviguant sur le Web et fini la vente des données confidentielles à des annonceurs, la plupart du temps sans le consentement explicite de l’internaute. « Avec votre ancien navigateur, vous payiez pour naviguer sur le Web de la manière suivante : votre attention était utilisée pour visualiser des publicités », rappelle la start-up californienne (basée à San Francisco). Avec le système «Brave Rewards », l’attention de l’internaute – « le temps de cerveau disponible », diraient certains – est valorisée sous la forme de jetons baptisés « Basic Attention Token » (BAT), « une nouvelle façon de valoriser l’attention en unissant les utilisateurs, les créateurs de contenu et les annonceurs ». Les jetons BAT constituent une cryptomonnaie qui s’appuie sur une plateforme décentralisée publicitaire – Ad Exchange – basée, elle, sur la blockchain open source Ethereum. Une fois inscrit, le navigateur commence à comptabilité « la quantité d’attention » accordée par l’internaute aux sites web qu’il visite. Explication du mode de fonctionnement : « Vous pouvez supprimer les sites (web) que vous ne souhaitez pas soutenir et offrir des pourboires directement à des créateurs. Toutes ces opérations sont anonymes : personne (pas même l’équipe de Brave) ne peut voir qui soutient quel site (web) », assure la plateforme.
En octobre, Brave Software a indiqué avoir reversé à ce jour quelque 12 millions de dollars à des créateurs de contenus (7) et compte plus d’un demi-million de sites web référents certifiés. Et de préciser : « Des publicités privées sont activées par défaut dans Brave Rewards, et cela vous permet de gagner des jetons BAT à chaque fois que vous visualisez une publicité. (…) Vous pouvez contrôler le nombre de publicités privées que vous souhaitez voir et gagner 70 % du revenu de la publicité que nous recevons de nos annonceurs ». C’est un peu comme accumuler des miles aériens, mais au lieu de voler l’utilisateur navigue ! « En échange de votre attention, vous accumulez des jetons pendant votre navigation. (…) Vous pouvez choisir de visualiser des publicités privées une à cinq fois par heure. Vous pouvez bien sûr aussi désactiver les publicités privées à tout moment ».

La Californie prône la « Data Dividend Tax »
En février 2019, le gouverneur de Californie, Gavin Newsom, a proposé « un “dividende de données” pour partager la richesse générée par les données personnelles avec les utilisateurs qui y ont contribué » (8). Ce projet prône une taxe numérique baptisée Data Dividend Tax (DDT), dont le modèle est présenté dans un rapport écrit par un groupe de travail indépendant. Ce document de 42 pages a été mis à jour le 6 Août dernier (9). Le fait que cet appel soit lancé par l’Etat américain des GAFAM et des Big Tech de la Silicon Valley donne une portée particulière à cette initiative. @

Charles de Laubier