L’Europe veut encadrer les algorithmes pour retirer les contenus illicites et éviter les « faux positifs »

Le futur règlement européen Digital Services Act (DSA) veut encadrer l’utilisation d’algorithmes dans la gestion des contenus sur les réseaux sociaux et d’en retirer ceux « jugés » illicites. Mais le risque de « faux positifs » (bloqués à tort) va poser des problèmes aux régulateurs et aux juges.

Par Winston Maxwell*, Telecom Paris, Institut polytechnique de Paris

Bloquer la publication d’un contenu est une décision grave, portant potentiellement atteinte à l’un des droits fondamentaux les plus importants pour la démocratie : la liberté d’expression. Pour la préserver, le droit constitutionnel américain et français exigent généralement qu’une décision interdisant la diffusion de contenus soit prise par une autorité judiciaire, et qu’elle le soit prise après la publication du contenu, non avant (1).

Blocage automatique : quelle légitimité ?
Les plateformes ne s’embarrassent pas de ces principes, filtrant des contenus avant leur publication par l’utilisation de robots. Faut-il s’en inquiéter ? S’agit-il d’une violation des droits fondamentaux des utilisateurs ? Le recours aux algorithmes pour identifier des contenus illégaux est devenu incontournable en raison de la quantité des informations publiées par les utilisateurs des réseaux sociaux. Même si la loi n’impose pas aux plateformes une obligation générale de surveillance des contenus, laquelle reste interdite (2), celles-ci ont mis en place des systèmes automatisés de détection de contenus illicites. Le champ d’application de ces outils s’est élargi grâce à l’émergence de modèles d’apprentissage automatique (machine learning), capables d’identifier des images et textes plus complexes, de comprendre le contexte d’une phrase ou d’une image, voire de juger de la véracité d’une affirmation.
Le futur règlement européen Digital Services Act (DSA) met en lumière les multiples rôles d’algorithmes dans la gestion de contenus sur les réseaux sociaux. Ces algorithmes identifient des contenus illicites et procèdent à leur retrait avec ou sans intervention humaine ; ils signalent l’existence d’utilisateurs potentiellement abusifs du service ; ils organisent la présentation de contenus et de publicités aux utilisateurs en fonction de leurs profils. Le règlement DSA propose d’encadrer l’utilisation d’algorithmes, surtout ceux utilisés pour retirer des contenus illicites. Les outils sont calibrés pour bloquer automatiquement, et sans intervention humaine, des contenus les plus manifestement illégaux. En cas de doute, la machine enverra le cas à des décisionnaires humains. Une grande partie des décisions de retrait de contenus sont aujourd’hui prises sans intervention humaine (3), ce qui soulève la question de leur légitimité et des garanties qui les entourent. Le DSA prévoit des garanties procédurales et de transparence similaires à celles qui existent pour les décisions prises par l’Etat. Le droit constitutionnel impose à l’Etat des règles contraignantes en matière de blocage de contenus illicites, alors que les plateformes, elles, ne sont pas directement concernées par ces contraintes constitutionnelles. Cependant, les plateformes dites « structurantes » ont un pouvoir quasi-étatique en matière de liberté d’expression. Il est donc logique d’étendre à ces plateformes les règles de transparence et de procédure qui s’appliquent aux décisions de l’Etat.
En 2018, les organisations de défense des droits civiques aux Etats-Unis ont élaboré des principes minimaux de transparence et de procédure équitable qui doivent s’appliquer aux décisions de retrait de contenus ou de suspension de comptes sur les réseaux sociaux. Appelés « Santa Clara Principles » (4), ces principes non-contraignants recommandent la publication par chaque plateforme numérique de données détaillées sur les alertes, les décisions de retrait et de suspension. Ils prévoient la notification aux utilisateurs affectés par les décisions de retrait, la publication de règles claires sur les types de contenus interdits sur la plateforme, la mention de raisons du retrait, la fourniture d’informations sur l’utilisation ou non d’un outil automatique, et une procédure efficace de contestation devant un décisionnaire humain différent de la personne qui a pris la décision initiale. Les Santa Clara Principles (SCP) reprennent, pour les adapter aux plateformes, une partie des règles constitutionnelles de « due process » aux Etats-Unis qui s’appliquent aux décisions, notamment algorithmiques, de l’Etat.

Le DSA va plus loin que les « SCP »
Le projet de règlement DSA rendrait contraignant un certain nombre des SCP, et notamment l’obligation d’informer l’utilisateur que son contenu a été retiré et de lui fournir une explication sur les raisons du retrait. La notification doit également mentionner l’utilisation éventuelle d’un outil automatique, et fournir des informations claires sur la possibilité de contester la décision. Le DSA exige une procédure efficace pour gérer les contestations d’utilisateurs, une procédure qui ne peut pas s’appuyer uniquement sur des moyens automatisés. Les utilisateurs peuvent donc contester un retrait devant un décisionnaire humain. Le DSA va au-delà des SCP en matière de transparence algorithmique, en exigeant la publication par les plateformes structurantes d’information sur les objectifs poursuivis par l’algorithme, les indices de performance, et les garanties entourant son utilisation.
Le projet de loi français sur le « respect des principes de la République », adopté par l’Assemblée nationale le 16 février dernier et actuellement examiné au Sénat (5), va plus loin encore en prévoyant la communication au Conseil supérieur de l’audiovisuel (CSA) des paramètres utilisés par les outils automatisés, des méthodes et des données utilisées pour l’évaluation et l’amélioration de leur performance.

Algorithmes, « faux positifs » et censure
La performance des algorithmes sera un sujet-clé pour le régulateur. Quel est le niveau acceptable de « faux positifs », à savoir des contenus bloqués à tort ? On sait que les tribunaux n’apprécient guère les faux positifs en matière de liberté d’expression (lire encadré ci-dessous) et qu’un algorithme d’apprentissage automatique va forcément générer des faux positifs. Le niveau de faux positifs dépendra notamment du niveau de sensibilité de l’algorithme dans la détection de « vrais » positifs, par exemple une vraie vidéo terroriste. Si l’on réduit le nombre de faux positifs, on va nécessairement réduire la sensibilité de l’algorithme dans la détection de vrais cas de contenus illégaux. Le bon équilibre entre les faux positifs et les faux négatifs sera un sujet délicat, et le niveau d’équilibre sera différent selon le type de contenus. Laisser passer la vidéo d’un acte terroriste du type Christchurch aura un coût très élevé pour la société, alors que laisser passer un morceau de musique protégé par le droit d’auteur sera a priori moins dommageable.
Les taux d’erreurs algorithmiques peuvent varier en fonction de la langue utilisée – un algorithme d’analyse de textes sera généralement plus performant en anglais – et peuvent également refléter les biais présents dans les données d’entraînement. Les algorithmes apprennent à partir des exemples de contenus retirés précédemment par les analystes humains. Ces analystes humains sont faillibles. Ils ont leur propre biais – biais culturels, linguistiques, ethniques, de genre – et commettent eux-aussi des erreurs d’appréciation qui seront reproduits ensuite par les algorithmes (6). Ainsi, il faut veiller non seulement au « bon » niveau de faux positifs et de faux négatifs selon le type de contenu, mais également vérifier que le niveau de perfor-mances de l’algorithme ne varie pas selon la couleur de la peau ou le sexe des personnes impliquées, selon la langue utilisée, ou selon le type de discours haineux (7). Ces multiples équilibres devraient être abordés dans un premier temps dans les études de risques systémiques conduites par les plateformes structurantes, en application de l’article 26 du futur règlement DSA en Europe. Ces études devront analyser l’impact des algorithmes d’identification et de retrait de contenus sur les droits fondamentaux. Ainsi, les plateformes devront proposer des solutions techniques et humaines pour concilier des objectifs – souvent contradictoires – liés à la mise en place d’un système de détection performant qui respecte en même temps la liberté d’expression, la protection des données personnelles et la protection contre les discriminations. Actuellement, le projet de règlement DSA prévoit que la Commission européenne sera le régulateur principal pour les plateformes structurantes. Celle-ci pourra émettre des recommandations relatives aux systèmes algorithmiques. Mais la manière de gérer les tensions entre la liberté d’expression et d’autres droits est avant tout une affaire nationale, dépendant du contexte, de l’histoire et de la culture de chaque pays (8).
En France, le CSA serait mieux placé que la Commission européenne pour évaluer les systèmes algorithmiques mis en place par les grandes plateformes pour analyser des contenus destinés au public français. Le paramétrage des algorithmes devra nécessairement refléter ces circonstances locales, et le contrôle de ces paramètres relèverait plus naturellement de la compétence du régulateur national. Un contrôle national de ces outils renforcerait en revanche le morcèlement des approches réglementaires entre Etats membres, et nécessiterait donc un système de coordination au niveau européen similaire à ce qui existe pour la régulation des télécoms et le RGPD. @

* Winston Maxwell, ancien avocat, est depuis juin 2019
directeur d’études Droit et Numérique à Telecom Paris.

FOCUS

Le droit est allergique aux surblocages
Le droit constitutionnel est peu tolérant aux « faux positifs » en matière de liberté d’expression. Les risques de surblocage ont été soulignés par la Cour suprême des Etats-Unis dans l’affaire « Reno c. ACLU » (9) dans les années 1990, et par la Cour de justice de l’Union européenne (CJUE) dans les affaires « Scarlet c. Sabam » (10) en 2011 et « Sabam c. Netlog » (11) en 2012. Ces deux dernières affaires concernaient la mise en place, à la demande d’un tribunal belge, d’un dispositif simple pour bloquer des contenus protégés par le droit d’auteur, s’appuyant sur un procédé de « hash » pour identifier les fichiers contrevenants.
La CJUE a considéré que ce procédé créait une atteinte disproportionnée à la protection des données à caractère personnel, mais également à la liberté d’expression en raison du risque de surblocage. L’outil serait incapable de détecter s’il s’agissait d’une citation, d’une parodie ou d’une autre utilisation permises par l’une des exceptions du droit d’auteur. Plus récemment, le Conseil constitutionnel a annulé deux dispositions de la loi française « Avia » (contre la cyberhaine) en raison du risque de surblocage de contenus « non manifestement illicites » (12). Pour des contenus faisant l’apologie du terrorisme, le Conseil constitutionnel a considéré que les injonctions de l’autorité administrative (13) ne constituaient pas une garantie suffisante et que les opérateurs de plateformes ne devaient pas suivre ces injonctions de manière automatique. @

Streaming : le Centre national de la musique (CNM) bute sur « une boîte noire »

En fait. Les 3 février, le président du Centre national de la musique (CNM), Jean-Philippe Thiellay, a été auditionné au Sénat par la commission de la culture. Il est revenu sur le rapport qu’il a publié le 27 janvier sur la répartition des revenus des plateformes de streaming musical. Ses travaux ont buté sur « une boîte noire ».

En clair. En menant cette étude d’impact du passage possible du mode actuel dit « market centric » (1) à un autre mode dit « user centric » (2) pour la répartition des revenus générés par les écoutes de la musique en streaming, le Centre national de la musique (CNM) a buté sur « une boîte noire ». C’est ce que son président Jean-Philippe Thiellay (photo) a reconnu devant les sénateurs lors de son audition le 3 février : « Il y a énormément de questions que l’on n’a pas pu explorer en raison de l’anonymisation des données et au fait que les données s’arrêtent aux distributeurs, même pas aux labels et encore moins à l’artiste. Il y a des questions qu’il faut continuer à explorer : la transparence des données, les algorithmes, les recommandations sur les playlists, les compositions des playlists, … Pour nous, c’est une boîte noire », a-t-il dit. Par ailleurs, la fraude des « fermes à clics » maximise automatiquement l’écoute de certains artistes.

La rémunération des musiciens dépend aussi d’algorithmes opaques
Réalisée avec le cabinet Deloitte, cette étude a aussi buté sur le manque de transparence des plateformes de streaming musical. Spotify et Deezer sont les seuls à avoir répondu au CNM, « tous les autres ont refusé ». Il faut dire que cet établissement public à caractère industriel et commercial (Epic), créé le 1er janvier 2020 et placé sous tutelle du ministère de la Culture, n’a pas le pouvoir d’un régulateur ni d’enquête comme l’Arcep, le CSA ou l’Autorité de la concurrence. Le fonctionnement des algorithmes de recommandation est en tout cas « opaque ». Passer du market centric au user centric revaloriserait les fonds de catalogues et accentuerait la diversité des genres musicaux, mais l’impact sur les artistes les moins écoutés serait néanmoins minime. A moins que cette « boîte noire »… Une part non négligeable des rémunérations en dépend, surtout que 10 % à… 80 % des écoutes sont dites « passives », c’est-à-dire issues d’algorithmes de recommandation qu’il reste à expertiser. « Le user centric, ce n’est pas la baguette magique. En revanche, comme le marché est dynamique, cela peut changer et il reste beaucoup de questions à explorer », a prévenu Jean-Philippe Thiellay. Quant au piratage du streaming musical, il réside surtout dans « le piratage des comptes qui, selon le président du CNM, peut être une vraie source de déperdition de valeur ». Une étude va être faite sur ce point avec l’Hadopi. @

Données de connexion et usage d’algorithmes : les lois françaises en violation des droits fondamentaux

La justice européenne a déclaré illégales les dispositions françaises sur la conservation des données de trafic et de localisation par les opérateurs télécoms, ainsi que par les hébergeurs. Elle a aussi fourni une feuille de route sur l’utilisation de « boîtes noires » dans la lutte contre le terrorisme.

Par Winston Maxwell*, Telecom Paris, Institut polytechnique de Paris

La Cour de justice de l’Union européenne (CJUE) a, le 6 octobre 2020 (1), mis fin à un débat qui existe depuis le 8 avril 2014, date à laquelle elle avait annulé la directive de 2006 sur la conservation des données de trafic (2), estimant que celle-ci était contraire à la Charte des droits fondamentaux de l’UE (3). La CJUE a jugé que cette directive créait une atteinte disproportionnée au droit à la protection des données personnelles parce qu’elle exigeait la conservation généralisée et indifférenciée des données de trafic de l’ensemble de la population.

La France n’a pas (encore) bougé
La CJUE est intervenue une deuxième fois en 2016, annulant les dispositions britanniques et suédoises sur la conservation des données de trafic, précisant de nouveau qu’une obligation de conservation généralisée et indifférenciée était incompatible avec cette même Charte des droits fondamentaux (4). Malgré ces deux décisions de la justice européenne, la France n’a pas bougé, préservant sa législation qui impose, d’une part, la conservation par les opérateurs de communications électroniques des données de connexion et de localisation, et, d’autre part, la conservation par les hébergeurs des données relatives à l’identification des utilisateurs et à leurs activités sur les plateformes numériques.
En plus, après les attentats terroristes de 2015, la France a introduit de nouvelles mesures permettant aux autorités d’utiliser des « boîtes noires » pour analyser l’ensemble des données de trafic des réseaux. Et ce, afin de détecter des signaux faibles de projets terroristes.
La Quadrature du Net (5) a contesté l’ensemble de ces mesures devant le Conseil d’Etat, et celui-ci a envoyé plusieurs questions préjudicielles à la CJUE. Devant cette dernière, le gouvernement français a d’abord défendu sa législation sur le fondement de l’article 4 du Traité sur l’UE qui précise que la protection de la sécurité nationale relève de la compétence exclusive de la France. A titre subsidiaire, le gouvernement français a soutenu que la lutte contre le terrorisme justifiait des mesures de surveillance plus intrusives qu’en matière de criminalité simple, et que les dispositions françaises devaient dès lors être validées compte tenu du risque accru du terrorisme.
Sur le premier point, la CJUE a confirmé que le droit de l’UE ne s’appliquait pas aux activités de renseignement et de protection de la sécurité nationale entreprises par l’Etat lui-même. En revanche, lorsque l’Etat impose aux entreprises privées des obligations telles que la conservation de données, le droit de l’UE s’applique, même s’il s’agit de mesures destinées à lutter contre le terrorisme. Par conséquent, la jurisprudence de la CJUE dans les affaires précitées de 2014 « Digital Rights Ireland » et de 2016 « Tele2 Sverige et Watson » s’applique pleinement à la France.
La CJUE a été d’accord avec la France sur la nécessité d’accorder une marge de manœuvre plus grande aux Etats membres en matière de protection de la sécurité nationale, car la menace est d’une toute autre nature qu’en matière de criminalité. Pour apprécier la proportionnalité de différentes mesures de surveillance, la CJUE établit trois niveaux de gravité :
• Le premier niveau est la protection de la sécurité nationale, y compris la lutte contre le terrorisme. Selon la CJUE, « la prévention et la répression d’activités de nature à déstabiliser gravement les structures constitutionnelles, politiques, économiques ou sociales fondamentales d’un pays, et en particulier à menacer directement la société, la population ou l’Etat en tant que tel », peut justifier une atteinte plus forte aux droits fondamentaux et, notamment, une obligation généralisée de conserver des données de trafic et de localisation. Mais cette obligation ne peut être justifiée que pendant une période limitée durant laquelle il existerait des « circonstances suffisamment concrètes permettant de considérer que l’Etat (…) fait face à une menace grave » pour sa sécurité nationale. Une commission indépendante ou un tribunal doit valider l’existence d’une telle menace.

Les trois niveaux de gravité
• Le deuxième niveau de gravité concerne la lutte contre la criminalité grave et les menaces graves contre la sécurité publique. Pour ce niveau, une obligation de conservation systématique et continue de données est exclue. Selon la CJUE, il faudrait qu’il existe un lien, même indirect, entre les données dont la conservation est demandée, et la détection ou la répression d’un crime grave. Ainsi, les demandes de conservation de données de trafic et de localisation doivent être ciblées, concernant un groupe particulier de personnes, ou une zone géographie à risque, par exemple les données de trafic autour d’une gare. En revanche, s’il s’agit uniquement des adresses IP, ceux-ci peuvent être stockés de manière généralisée, selon la justice européenne.
• Le troisième niveau concerne toutes les formes de criminalité. Seul le stockage des données relatives à l’identité civile des utilisateurs peut être envisagé. La conservation d’autres données est exclue.
Cette approche graduée découle naturellement de la jurisprudence de la CJUE en matière de proportionnalité – plus la menace pour l’Etat et les citoyens est élevée, plus le niveau d’ingérence avec la vie privée peut être élevé.

Algorithmes de détection en temps réel
La France devra donc réécrire ses lois pour introduire une différenciation entre les menaces graves pour la sécurité nationale (menaces de niveau 1), menaces graves pour la sécurité publique et lutte contre la criminalité grave (menaces de niveau 2), et lutte contre la criminalité ordinaire (menaces de niveau 3). A chaque niveau correspondra des règles adaptées en matière de conservation des données.
L’autre leçon de la décision de la CJUE concerne la régulation des algorithmes utilisés par l’administration française pour détecter des projets terroristes. Depuis la loi de 2015 sur les techniques de renseignement (6), les services spécialisés – désignés par décret en Conseil d’Etat – ont la possibilité de procéder à l’analyse automatique des données de trafic et de localisation en temps réel afin de détecter des signaux faibles d’activités terroristes. Cette possibilité est strictement encadrée par la Commission nationale de contrôle des techniques de renseignement (CNCTR (7)), et la période d’expérimentation doit prendre fin le 31 juillet 2021. Le gouvernement a récemment proposé d’étendre la période d’expérimentation des algorithmes jusqu’à fin décembre 2021.
L’utilisation de l’intelligence artificielle pour lutter contre le terrorisme est controversée, car les algorithmes sont faillibles et peuvent tirer des conclusions erronées et discriminatoires. Dans sa décision du 6 octobre, la CJUE fournit une feuille de route sur la possibilité de déployer ces outils.
D’abord, la justice européenne confirme que l’analyse des données de trafic et de localisation en temps réel constitue une ingérence « particulièrement grave » avec la protection de la vie privée. Le déploiement d’un tel dispositif doit être prévu par une loi claire et précise qui définit les limites et les mesures de protection accompagnant le dispositif. La CJUE indique que le dispositif ne peut se justifier qu’en présence d’une menace grave pour la sécurité nationale qui s’avère « réelle et actuelle ou prévisible ». Un tribunal ou autorité administrative indépendante doit contrôler l’existence d’une telle menace, et ses décisions doivent avoir un effet contraignant. En ce qui concerne l’algorithme lui-même, les modèles et critères préétablis doivent être « spécifiques et fiables, permettant d’aboutir à des résultats identifiant des individus à l’égard desquels pourrait peser un soupçon raisonnable de participation à des infractions terroristes et, d’autre part, non discriminatoires ». Les modèles et critères préétablis ne peuvent se fonder seulement sur des données sensibles. Les termes utilisés par la CJUE suggèrent que l’algorithme pourrait éventuellement s’appuyer – en partie – sur des données sensibles, ce qui semble en contradiction avec le règlement général sur la protection des données (RGPD) en vigueur au niveau européen. La CJUE indique ensuite que tout algorithme comporte un taux d’erreur, et que tout résultat positif doit être soumis à un réexamen individuel par un analyste humain avant la mise en œuvre d’autres mesures de surveillance. Cette exigence de la CJUE pose la question de la compréhension de la recommandation algorithmique par l’analyste humain et sa capacité de contredire l’algorithme. Pour qu’il y ait une vraie intervention humaine, l’algorithme doit être en mesure d’expliquer pourquoi il a détecté des signaux faibles d’activités terroristes, et l’analyste humain doit être en mesure d’apporter une analyse critique par rapport à l’explication donnée par l’algorithme. Lorsque l’algorithme s’appuie sur des techniques d’apprentissage-machine (machine learning), de telles explications peuvent s’avérer difficiles. La CJUE impose un réexamen régulier de l’algorithme et les données utilisées pour garantir l’absence de discrimination et le caractère strictement nécessaire du dispositif à la lumière de la menace terroriste. La fiabilité et l’actualité des modèles et critères préétablis, et les bases de données utilisées, doivent également être revues régulièrement par une autorité de contrôle, soit une forme de suivi dynamique. Enfin, si l’algorithme débouche sur la surveillance plus poussée d’un individu, celui-ci doit être informé dès le moment où cette communication n’est pas susceptible de compromettre les missions incombant aux autorités.

Renseignement : la loi française à réécrire
Réunie le 7 juillet 2020, la commission de la Défense nationale et des Forces armées de l’Assemblée nationale a estimé que le recours aux algorithmes était utile et nécessaire dans lutte contre le terrorisme et devrait être pérennisé, voire étendu pour permettre l’analyse d’autres données, telles que des URL (8) de sites web consultés (9). Au moment de sa séance, la commission parlementaire avait connaissance de l’affaire pendante devant la CJUE et a reconnu que celle-ci pourrait avoir un profond impact sur les méthodes utilisées en France. Elle ne s’y est pas trompée : la décision du 6 octobre impose une réécriture de la loi française sur les techniques de renseignement. @

* Winston Maxwell, ancien avocat, est depuis juin 2019
directeur d’études Droit et Numérique à Telecom Paris.

Pour la reconnaissance faciale à distance ou locale, les enjeux éthiques ne sont pas les mêmes

Identifier un visage dans une foule soulève de sérieuses questions sur les libertés individuelles. Mais il existe de nombreux autres usages de la reconnaissance faciale, notamment la validation d’identité en local. Ces utilisations ont vocation à se développer mais posent d’autres questions éthiques.

Par Winston Maxwell* et David Bounie**, Telecom Paris, Institut polytechnique de Paris

L’utilisation de la reconnaissance faciale pour l’identification à distance constitue une menace pour les libertés individuelles, car cela tend à banaliser une société de surveillance. Selon le New York Times, une start-up américaine Clearview AI a déjà fabriqué des gabarits d’identification de 3 milliards d’individus à partir d’images copiées sur le Web (1). N’importe quelle force de l’ordre – mais pas le grand public (2) – peut utiliser le logiciel de Clearview AI et identifier les visages dans une foule. Cependant, plusieurs villes américaines ont temporairement banni cette utilisation de la technologie par leurs autorités publiques.

Outils de surveillance généralisée
En Europe, la Commission européenne appelle à un grand débat européen sur l’utilisation de la reconnaissance faciale pour l’identification à distance. En France, le secrétaire d’Etat au numérique, Cédric O, souhaite lancer des expérimentations. Pour l’identification à distance, il faut avancer à tâtons pour trouver le bon équilibre entre les impératifs de sécurité publique et la préservation des valeurs démocratiques. Mais ce débat n’est pas différent au fond de celui qui, depuis 50 ans, entoure les technologies de surveillance des communications électroniques. La technologie utilisée pour la surveillance des communications n’a pas cessé d’évoluer : IMSI-catchers ou intercepteurs d’IMSI (3), boîtes noires, Deep Packet Inspection (DPI), captation à distance, … Ces outils permettraient une surveillance généralisée de la population. Leur utilisation en France est interdite, sauf par les forces de polices et des autorités de renseignement sous le contrôle de juges et de la CNCTR (4).
En application de la jurisprudence européenne, l’utilisation de technologies invasives de surveillance par l’Etat se justifie uniquement si l’utilisation est prévue par une loi. Et ce, pour faire face à une menace particulièrement grave, la lutte contre le terrorisme par exemple, et sous le contrôle d’un juge ou d’une commission indépendante. L’utilisation de la reconnaissance faciale pour identifier les individus à distance devrait suivre la même trajectoire : interdiction, sauf pour les autorités de police ou de renseignement sous le contrôle des juges. D’ailleurs, c’est déjà ce qui est prévu par la directive européenne européenne dite « Police-Justice » (5) de 2016, puisque la reconnaissance faciale est un traitement biométrique soumis à des règles strictes. Mais il existe un deuxième type d’utilisation, non-évoqué par la Commission européenne dans son livre blanc (6) sur l’intelligence artificielle (IA). Il s’agit de valider l’identité « en local » d’un individu en comparant sa photo « selfie » avec la photo de la pièce d’identité. Cette utilisation permet notamment d’ouvrir un compte bancaire à distance ou bien de passer plus vite dans un portique automatique à l’aéroport. Cette utilisation de la reconnaissance faciale se généralise, et elle paraît – de prime abord – moins attentatoire aux libertés individuelles : d’une part, parce que les personnes sont conscientes et consentantes de l’utilisation (ce qui n’est pas le cas pour l’identification à distance) ; d’autre part, parce qu’aucune image ni gabarit biométrique n’est stocké de manière centralisée. La vérification s’effectue en local, comme pour déverrouiller un smartphone avec l’empreinte digitale. Le système crée un gabarit biométrique à partir de la photo du passeport, analyse ensuite la photo de selfie, crée un deuxième gabarit biométrique du selfie, et compare les deux gabarits pour établir une probabilité de correspondance. Ensuite les gabarits sont détruits (lire encadré page suivante). La reconnaissance faciale locale soulève néanmoins des questions éthiques et juridiques importantes : l’existence d’un consentement libre, le problème des biais, l’explicabilité des algorithmes, et la difficile articulation avec le règlement général sur la protection des données (RGPD) pour la phase d’entraînement. La reconnaissance faciale « locale » pose la question du consentement libre. Si la personne subit des conséquences négatives en refusant la reconnaissance faciale, le consentement ne sera pas libre. Il en sera de même si le consentement est demandé par une personne jouissant d’une position d’autorité, par exemple si la direction d’un lycée demandait aux élèves de consentir à l’utilisation de la reconnaissance faciale pour rentrer dans l’établissement (7).

Les biais statistiques sont inévitables
Concerne les biais cette fois, le Parlement européen a appelé le 12 février 2020 à l’utilisation d’algorithme qu’il faut entraîner avec des données « non-biaisées » (8). Or, une telle condition est impossible à satisfaire en pratique. Certains groupes de la population seront toujours sous-représentés dans les images d’entraînement, ce qui signifie que les biais statistiques seront inévitables. Cela peut conduire à des niveaux de performance inégaux selon le genre, la couleur de peau ou la situation de handicap d’une personne. Par exemple, l’algorithme pourrait avoir plus de difficulté à identifier une femme noire qu’un homme blanc au moment de la vérification de l’identité à l’aéroport. Ces biais peuvent exister sous une forme bien pire chez les humains. Mais pour un algorithme, ce genre de biais est peu acceptable. Corriger ces biais dans l’algorithme est possible, mais cela soulève d’autres questions. Par exemple, si l’algorithme a un taux d’erreur élevé pour des personnes atteintes d’une certaine maladie de la peau, devons-nous baisser artificiellement le niveau de performance pour tous les autres groupes de la population pour que le taux d’erreur soit équivalent ? Ces questions deviennent rapidement politiques : à partir de quel moment un biais algorithmique devient-il suffisamment problématique pour le corriger, ce qui affectera inévitablement la performance de l’algorithme pour les autres personnes ?

Savoir s’il y a discrimination algorithmique
Un autre aspect éthique de la reconnaissance faciale concerne l’explicabilité des algorithmes. En France, le code des relations entre le public et l’administration garantit à chaque individu le droit d’obtenir une explication lorsqu’un algorithme géré par l’Etat prend une décision à son encontre (9). Logiquement, ce droit exige que l’exploitant de l’algorithme soit en mesure d’expliquer à une personne pourquoi un système n’a pas pu vérifier son image par rapport à sa pièce d’identité. Techniquement, des solutions d’explicabilité existent, même pour des réseaux de neurones. Mais fournir une explication exige le stockage d’informations, et notamment les gabarits générés par l’algorithme. Or, le RGPD et la directive « Police- Justice » interdisent généralement ce stockage, surtout lorsqu’il s’agit de données biométriques.
Résultat : dans certains cas, il n’y aura aucune explication quant au refus du système de vérifier l’identité. Le système ne réussira pas à identifier la personne, sans que la personne puisse vérifier si elle a fait l’objet d’une discrimination algorithmique. Cette absence de transparence pose une difficulté au niveau des droits fondamentaux, comme le démontre une récente décision du tribunal de la Haye (10).
Enfin, l’entraînement des algorithmes de reconnaissance faciale est difficile à réconcilier avec le RGPD. Pour réduire les discriminations, l’Agence européenne des droits fondamentaux (FRA) souligne la nécessité d’entraîner l’algorithme sur une grande quantité d’images représentatives de la population, et notamment les personnes vulnérables (11). Or cette condition est quasiment impossible à remplir en Europe puisque le RGPD et la directive « Police-Justice » interdisent la création de grandes bases d’images, surtout lorsque les images sont étiquetées selon la couleur de peau ou la situation de handicap. Les systèmes américains et chinois bénéficient, eux, d’entraînement sur des dizaines de millions d’images, ce qui crée un avantage concurrentiel considérable. De plus, les tests de non-discrimination des algorithmes s’effectuent tous aux Etats-Unis à l’agence NIST (12), même pour les systèmes européens.
L’entraînement des algorithmes pose un problème particulier puisque le gabarit d’un visage est considéré comme une donnée biométrique. Or le RGPD interdit le traitement de données biométriques, hormis des cas limités – par exemple, le consentement explicite de la personne. Du coup, un entraînement sur des millions d’images récupérées sur Internet devient impossible par une société européenne puisque l’entraînement nécessite la création, au moins temporaire, de gabarits, une donnée biométrique. Une solution pourrait consister en l’assouplissement des conditions d’application du RGPD lorsqu’il s’agit de créer des gabarits éphémères pour l’apprentissage des algorithmes dans des environnements contrôlés, voire de considérer que ces gabarits ne sont pas des données biométriques puisque la finalité de leur traitement n’est pas l’identification d’une personne mais seulement l’entraînement de l’algorithme. Lorsque l’algorithme est mis en exploitation, les dispositions du RGPD ou de la directive « Police-Justice » sur la biométrie retrouveraient toute leur force, puisque les gabarits seraient bien utilisés pour identifier des personnes. Le consentement explicite de la personne, ou en cas d’intérêt public et de nécessité absolue, serait alors nécessaire. @

* Winston Maxwell, ancien avocat, est depuis juin 2019 directeur d’études
Droit et Numérique à Telecom Paris. ** David Bounie est directeur du
département Economie et Sciences sociales à Telecom Paris.

ZOOM

Qu’est-ce qu’un gabarit ?
Un gabarit est l’équivalent d’un code barre qui contient les mensurations uniques d’un visage. La clé du succès en matière de reconnaissance faciale est de créer un algorithme capable de générer des gabarits de qualité à partir d’images d’individus. Un algorithme de qualité doit savoir générer le même gabarit pour l’image de Paul, quelles que soient les différences de lumière, d’angle de vue et de netteté de l’image de Paul. Pour entraîner l’algorithme, on va présenter à un réseau de neurones 100 photos d’une même personne — par exemple Angelina Jolie — récupérées sur le Web, avec des angles de vue et des lumières différents, et demander au réseau de neurones de trouver une formule mathématique qui permettra pour chaque photo d’Angelina Jolie de générer le même gabarit, quels que soient l’angle de vue ou la lumière. Les gabarits générés pendant l’apprentissage sont éphémères. Ils servent uniquement à aider l’algorithme à trouver la bonne formule mathématique. Une fois cette formule mathématique unique établie, elle peut s’appliquer à n’importe quelle nouvelle photo de passeport et générer, pour cette photo, un gabarit de qualité. L’algorithme va ensuite générer un deuxième gabarit à partir d’une deuxième photo (par exemple un selfie), et si l’algorithme est bien fait, les deux gabarits vont correspondre malgré les différences d’angle de vue et de lumière. La qualité de cet algorithme est au cœur des systèmes de reconnaissance faciale. @

Radio France : Sibyle Veil n’abandonne pas le projet de « radio sur mesure » initié par Mathieu Gallet

Mathieu Gallet en avait rêvée pour 2018 ; Sibyle Veil va la faire d’ici 2022 : la radio sur mesure va transformer à l’avenir de Radio France. Cette « radio personnalisée » s’appuiera sur les sept stations du groupe, les comptes-utilisateurs des internautes et l’exploitation de leurs données. Mais il reste à financer le projet.

Il y a un an maintenant, l’ancien président de Radio France, Mathieu Gallet, lançait la plateforme « Un monde de Radio France » offrant une sélection d’émissions de radio en replay issues des programmes de Franceinfo, France Inter, France Bleu, France Culture, France Musique, Fip et Mouv. Et ce, avec la promesse faite aux auditeurs et internautes de pouvoir « se composer leur radio sur mesure dès 2018 » – dixit Mathieu Gallet (1). Cette radio sur mesure devait être lancée par Radio France au premier trimestre de cette année, avec la possibilité pour chaque internaute de créer son compte et sa propre grille de programmes à partir des émissions des sept stations du groupe public. Mais la révocation de Mathieu Gallet en janvier (2) par le Conseil supérieur de l’audiovisuel (CSA), lequel a ensuite nommé en avril sa successeuse Sibyle Veil (photo), n’a pas permis de mener à bien ce projet ambitieux de radio personnalisée. Il y a aussi la complexité du projet et le montant de l’investissement en technologies et infrastructure qui ont renvoyé à plus tard le lancement d’une telle plateforme radiophonique interactive. D’autant que la Maison Ronde est dans une période de restriction budgétaire exigée par l’Etat actionnaire, avec un retour à l’équilibre espéré cette année dans le cadre de la « trajectoire du COM 2015-2019 ».

Comptes-utilisateurs, personnalisation, data, publicités ciblées, …
« Pour l’instant, la personnalisation n’a pas été faite car cela nécessite des équipements très importants. On y travaille avec des start-up [telles que Les Croissants, Radio France étant par ailleurs partenaire de l’incubateur Creatis Media et présent à Station F, ndlr] afin de pouvoir créer des comptes-utilisateur qui permettent de collecter les données d’usage des internautes pour personnaliser les contenus. Cela nécessite techniquement de l’investissement », a expliqué Sibyle Veil devant l’Association des journalistes médias (AFM) le 5 juillet dernier, pour justifier le retard mais en restant vague sur le calendrier de lancement. « C’est un travail sur les trois prochaines années », a-t-elle indiqué. « La radio personnalisée est complexe à faire techniquement. C’est une vraie priorité pour les prochaines années », a-t-elle cependant assuré.

Radio France fait alliance avec la Chine
La présidente de Radio France observe de près ce qui se fait à l’étranger.
« J’étais en Chine récemment où j’ai été voir des radios qui commencent à le faire. On en est aux prémices parce qu’il faut un lien plus direct avec l’internaute et une interaction. Cela suppose un investissement technique et une infrastructure, ainsi qu’une collecte et une analyse de données issues de ces comptes-utilisateur ». Selon nos informations, Sibyle Veil s’est rendue du 22 au 24 juin en Chine – avec une délégation du Premier ministre – où elle est restée une matinée entière à la radio de Shanghaï, SMG Radio, du groupe audiovisuel public Shanghai Media Group (réunissant télés et radios publiques), afin de constater leurs avancées dans ce domaine. A noter que Radio France a intégré en juin le Comité France Chine (CFC).
Mais la radio personnalisée va coûter de l’argent. C’est aussi le message que Sibyle Veil a fait passer auprès des députés et des sénateurs lors de ses auditions respectives des 13 et 6 juin derniers. En creux, le projet de radio sur mesure est suspendu au futur cadrage budgétaire de l’audiovisuel public et surtout à la dotation qui sera votée dans le projet de loi de Finances pour 2019 à l’automne. Celle qui fut auparavant directrice déléguée en charge des opérations et des finances de Radio France table sur « un chiffrage pluriannuel » pour mettre en oeuvre sa stratégie dans le temps et avec une visibilité d’ici à 2022. La nouvelle PDG de la radio publique veut s’inscrire dans la durée – y compris dans le numérique en faisant référence à « la stratégie de long terme de Jeff Bezos sur Amazon ». Et ce, malgré la vaste réforme immédiate de l’audiovisuel public qu’a initiée le président de la République, Emmanuel Macron. Elle a d’ailleurs confié devant l’AJM avoir gardé « une relation d’amitié d’école qui ne va pas au-delà en termes professionnel » – depuis l’ENA d’où ils sont sortis de la même promotion Senghor (2002-2004). Quoi qu’il en soit, son mandat de présidente de Radio France est d’une durée de cinq ans et le projet ambitieux de radio personnalisée est en bonne place dans son projet stratégique 2018-2023 qu’elle a présenté en avril au CSA juste avant d’être retenue (3). A l’heure du Net, le secteur de la radio va être amené à basculer dans le monde de la data et des algorithmes de recommandation. « La personnalisation de la relation avec l’internaute va reposer sur l’exploitation des données d’usage produites à chaque interaction et agrégées au profil de chaque utilisateur.
Pour pouvoir offrir un espace de personnalisation, Radio France devra accentuer ses efforts de recherche et de développement sur l’exploitation de ces données. L’objectif est (…) que l’auditeur/internaute qui entre par un type de programme ou par une marque se voit offrir l’accès à l’univers plus large des contenus de la radio publique », avait-elle expliqué au régulateur de l’audiovisuel, en mentionnant la plateforme « Un monde de Radio
France » mise en place par son prédécesseur pour y parvenir. Cela suppose pour la Maison Ronde de se lancer dans l’analyse des données d’usage nécessaires pour faire des recommandations susceptibles d’enrichir l’écoute, et ce dans un esprit de « prescription culturelle » et de « média de service public ».
« Cela implique de travailler sur un algorithme intelligent ou sur un outil de recommandation ouvert (comme la radio américaine Pandora) paramétré pour ne pas polariser l’usager sur ses seuls centres d’intérêt (4) », avait-elle précisé.
Mathieu Gallet, lui, prenait volontiers en exemple ni la plateforme audio américaine Pandora ni la radio chinoise SMG, mais l’application de radio personnalisée NPR One lancée en 2014 par la radio publique américaine National Public Radio. La personnalisation interactive de ce média revient en quelque sorte à faire en streaming un « Spotify gratuit de la radio » et pourrait sonner à terme le glas des podcasts à télécharger (lire aussi p. 4). Sibyle Veil, elle, va chercher son inspiration ailleurs. « Je suis allé en Chine, en Allemagne ; nous avons des relations avec la RTBF en Belgique et nous allons voir prochainement nos homologues suédois (Sveriges Radio). Toutes les questions sur les évolutions de nos médias, on les partage très fortement avec les autres. Dans les enjeux de transformation, il faut que l’on passe du monde ancien – où l’on parlait marques et audiences – à un monde nouveau du numérique – où l’on parle individu et expérience client. Il faut que l’on arrive à avoir une relation personnalisée avec ceux qui s’intéressent à nos programmes et que, par innovations successives, nous les gardions et les fidélisions », a-t-elle insisté devant l’AJM.

« Ma radio demain » sera ciblée
A cet égard, la prochaine concertation avec le public – qui sera lancée à la rentrée sur une plateforme participative « Ma radio demain » et dont les résultats seront communiqués à l’automne – permettra d’engager une première réflexion en ligne avec le public auditeur-internautes pour cerner avec lui les enjeux radiophoniques futures (audio, texte, image et vidéo) des prochaines années où la radio sur mesure donnera le la. Pour l’heure, la radio linéaire hertzienne de la FM reste comme ailleurs dominante à Radio France (88 % de l’écoute) par rapport au numérique (12 %). Pour l’instant… @

Charles de Laubier