A 75 ans, l’Unesco – dirigée par Audrey Azoulay – prend des airs de régulateur mondial de l’Internet

C’est en novembre 1946 qu’est formellement créée l’organisation des Nations Unies pour l’éducation, la science et la culture. Soixante-quinze ans après, son onzième directeur général et deuxième femme – Audrey Azoulay – a été réélue pour un second mandate de quatre ans. Parmi ses priorités : le numérique.

Comme en octobre 2017, la Française Audrey Azoulay (photo) a été élue en novembre 2021 – cette fois pour un second mandat de quatre ans – à la direction générale de l’Unesco, lors de la 41e conférence générale de celle-ci, avec à nouveau le soutien de « la République française » qui a proposé une seconde fois sa candidature. Entre le précédent locataire de l’Elysée, François Hollande, et l’actuel, Emmanuel Macron – lequel, faut-il le rappeler, y a été le secrétaire général adjoint du premier puis « son » ministre de l’Economie, de l’Industrie et du Numérique (avant de devenir son rival) –, il y a un point commun : celui d’avoir été à l’origine de la nomination d’Audrey Azoulay à la tête de cette organisation onusienne basée à Paris. Autant son accession à ce poste international n’avait pas été évidente il y a quatre ans, autant sa réélection est passée comme une lettre à la poste : sur 193 Etats membres de l’Unesco, 169 ont voté le 9 novembre, dont 155 voix se sont portées sur l’ancienne ministre de la Culture et de la Communication (après avoir été conseillère dans ces domaines auprès de François Hollande à l’Elysée). Il faut dire que l’énarque était seule en lice pour ce mandat 2021-2025, alors que pour remporter son premier mandat (après une candidature déposée in extremis) elle avait dû battre le Qatari Hamad bin Abdulaziz al-Kawari.

Encadrer l’intelligence artificielle, les algorithmes et les données
Bientôt quinquagénaire (en août 2022), la voici à pied d’oeuvre pour quatre nouvelles années à l’Unesco, laquelle organisation a fêté ses 75 ans le 12 novembre dernier . Le premier jour de cette 41e conférence générale de l’Unesco, qui s’est tenue du 9 au 24 novembre, Audrey Azoulay a prononcé – en français, en anglais et en espagnol – son discours de politique générale. Plus que jamais, en plus des défis de l’éducation, de l’environnement et de la paix, le défi du numérique est désormais au coeur de son action. « Le quatrième défi que je souhaite relever est celui de construire un univers numérique qui soit au service de nos valeurs sans les assujettir A l’ère des métavers, des mégadonnées et des robots d’Asimov [écrivain américano-russe et biochimiste, auteur de science-fiction et de vulgarisation scientifique, ndlr], nous avons besoin d’orientations claires », a déclaré la directrice générale fraîchement reconduite à la tête de l’Unesco. Pour Audrey Azoulay, l’organisation onusienne doit avoir son mot à dire sur le monde du numérique, comme elle l’a eu sur Continuer la lecture

Création d’une oeuvre ou d’une invention par une IA : la justice commence à faire bouger les lignes

C’est un peu le paradoxe de l’oeuf et de la poule : qui est apparu le premier ? Dans le cas d’une création ou d’une invention par une intelligence artificielle, qui est l’auteur : la personne humaine ou la technologie créatrice ? Cette question existentielle commence à trouver des réponses, en justice.

Par Boriana Guimberteau (photo), avocatE associéE, cabinet Stephenson Harwood

L’intelligence artificielle (IA) fait l’objet de développements exponentiels dans des domaines aussi variés que les voitures autonomes (et les données générées par celle-ci), la rédaction d’articles ou la création de musiques. Au-delà de la compréhension de son fonctionnement, l’intelligence artificielle soulève la question de la paternité et de la titularité des oeuvres créées ou des inventions générées par elle. Avant d’explorer plus en amont cette question, il convient de fournir une définition de l’intelligence artificielle. Selon l’Organisation mondiale de la propriété intellectuelle (OMPI), l’intelligence artificielle désigne une branche de l’informatique qui a pour objet de concevoir des machines et des systèmes à même d’accomplir des tâches faisant appel à l’intelligence humaine, avec un intervention humaine limitée ou nulle.

Vers un « Artificial Intelligence Act » européen
Cette notion équivaut généralement à l’intelligence artificielle spécialisée, c’est-à-dire aux techniques et applications programmées pour exécuter des tâches individuelles. L’apprentissage automatique (machine learning) et l’apprentissage profond (deep learning) font tous deux parties des applications de l’intelligence artificielle. L’IA peut ainsi produire différents résultats dont certains pourraient être qualifiés de créations ou d’inventions, les premières protégeables par le droit d’auteur et les secondes par le droit des brevets d’invention. La question est alors de savoir qui sera titulaire des créations ou des inventions générées par l’IA, et si l’IA pourrait être qualifiée d’auteur ou d’inventeur par le droit positif français. En matière de droit d’auteur tout d’abord, de nombreux auteurs se sont penchés sur la question de savoir si l’intelligence artificielle pouvait bénéficier de la qualité d’auteur. La majorité d’entre eux reconnaissent Continuer la lecture

Streaming : le Centre national de la musique (CNM) bute sur « une boîte noire »

En fait. Les 3 février, le président du Centre national de la musique (CNM), Jean-Philippe Thiellay, a été auditionné au Sénat par la commission de la culture. Il est revenu sur le rapport qu’il a publié le 27 janvier sur la répartition des revenus des plateformes de streaming musical. Ses travaux ont buté sur « une boîte noire ».

En clair. En menant cette étude d’impact du passage possible du mode actuel dit « market centric » (1) à un autre mode dit « user centric » (2) pour la répartition des revenus générés par les écoutes de la musique en streaming, le Centre national de la musique (CNM) a buté sur « une boîte noire ». C’est ce que son président Jean-Philippe Thiellay (photo) a reconnu devant les sénateurs lors de son audition le 3 février : « Il y a énormément de questions que l’on n’a pas pu explorer en raison de l’anonymisation des données et au fait que les données s’arrêtent aux distributeurs, même pas aux labels et encore moins à l’artiste. Il y a des questions qu’il faut continuer à explorer : la transparence des données, les algorithmes, les recommandations sur les playlists, les compositions des playlists, … Pour nous, c’est une boîte noire », a-t-il dit. Par ailleurs, la fraude des « fermes à clics » maximise automatiquement l’écoute de certains artistes.

La rémunération des musiciens dépend aussi d’algorithmes opaques
Réalisée avec le cabinet Deloitte, cette étude a aussi buté sur le manque de transparence des plateformes de streaming musical. Spotify et Deezer sont les seuls à avoir répondu au CNM, « tous les autres ont refusé ». Il faut dire que cet établissement public à caractère industriel et commercial (Epic), créé le 1er janvier 2020 et placé sous tutelle du ministère de la Culture, n’a pas le pouvoir d’un régulateur ni d’enquête comme l’Arcep, le CSA ou l’Autorité de la concurrence. Le fonctionnement des algorithmes de recommandation est en tout cas « opaque ». Passer du market centric au user centric revaloriserait les fonds de catalogues et accentuerait la diversité des genres musicaux, mais l’impact sur les artistes les moins écoutés serait néanmoins minime. A moins que cette « boîte noire »… Une part non négligeable des rémunérations en dépend, surtout que 10 % à… 80 % des écoutes sont dites « passives », c’est-à-dire issues d’algorithmes de recommandation qu’il reste à expertiser. « Le user centric, ce n’est pas la baguette magique. En revanche, comme le marché est dynamique, cela peut changer et il reste beaucoup de questions à explorer », a prévenu Jean-Philippe Thiellay. Quant au piratage du streaming musical, il réside surtout dans « le piratage des comptes qui, selon le président du CNM, peut être une vraie source de déperdition de valeur ». Une étude va être faite sur ce point avec l’Hadopi. @

Données de connexion et usage d’algorithmes : les lois françaises en violation des droits fondamentaux

La justice européenne a déclaré illégales les dispositions françaises sur la conservation des données de trafic et de localisation par les opérateurs télécoms, ainsi que par les hébergeurs. Elle a aussi fourni une feuille de route sur l’utilisation de « boîtes noires » dans la lutte contre le terrorisme.

Par Winston Maxwell*, Telecom Paris, Institut polytechnique de Paris

La Cour de justice de l’Union européenne (CJUE) a, le 6 octobre 2020 (1), mis fin à un débat qui existe depuis le 8 avril 2014, date à laquelle elle avait annulé la directive de 2006 sur la conservation des données de trafic (2), estimant que celle-ci était contraire à la Charte des droits fondamentaux de l’UE (3). La CJUE a jugé que cette directive créait une atteinte disproportionnée au droit à la protection des données personnelles parce qu’elle exigeait la conservation généralisée et indifférenciée des données de trafic de l’ensemble de la population.

La France n’a pas (encore) bougé
La CJUE est intervenue une deuxième fois en 2016, annulant les dispositions britanniques et suédoises sur la conservation des données de trafic, précisant de nouveau qu’une obligation de conservation généralisée et indifférenciée était incompatible avec cette même Charte des droits fondamentaux (4). Malgré ces deux décisions de la justice européenne, la France n’a pas bougé, préservant sa législation qui impose, d’une part, la conservation par les opérateurs de communications électroniques des données de connexion et de localisation, et, d’autre part, la conservation par les hébergeurs des données relatives à l’identification des utilisateurs et à leurs activités sur les plateformes numériques.
En plus, après les attentats terroristes de 2015, la France a introduit de nouvelles mesures permettant aux autorités d’utiliser des « boîtes noires » pour analyser l’ensemble des données de trafic des réseaux. Et ce, afin de détecter des signaux faibles de projets terroristes.
La Quadrature du Net (5) a contesté l’ensemble de ces mesures devant le Conseil d’Etat, et celui-ci a envoyé plusieurs questions préjudicielles à la CJUE. Devant cette dernière, le gouvernement français a d’abord défendu sa législation sur le fondement de l’article 4 du Traité sur l’UE qui précise que la protection de la sécurité nationale relève de la compétence exclusive de la France. A titre subsidiaire, le gouvernement français a soutenu que la lutte contre le terrorisme justifiait des mesures de surveillance plus intrusives qu’en matière de criminalité simple, et que les dispositions françaises devaient dès lors être validées compte tenu du risque accru du terrorisme.
Sur le premier point, la CJUE a confirmé que le droit de l’UE ne s’appliquait pas aux activités de renseignement et de protection de la sécurité nationale entreprises par l’Etat lui-même. En revanche, lorsque l’Etat impose aux entreprises privées des obligations telles que la conservation de données, le droit de l’UE s’applique, même s’il s’agit de mesures destinées à lutter contre le terrorisme. Par conséquent, la jurisprudence de la CJUE dans les affaires précitées de 2014 « Digital Rights Ireland » et de 2016 « Tele2 Sverige et Watson » s’applique pleinement à la France.
La CJUE a été d’accord avec la France sur la nécessité d’accorder une marge de manœuvre plus grande aux Etats membres en matière de protection de la sécurité nationale, car la menace est d’une toute autre nature qu’en matière de criminalité. Pour apprécier la proportionnalité de différentes mesures de surveillance, la CJUE établit trois niveaux de gravité :
• Le premier niveau est la protection de la sécurité nationale, y compris la lutte contre le terrorisme. Selon la CJUE, « la prévention et la répression d’activités de nature à déstabiliser gravement les structures constitutionnelles, politiques, économiques ou sociales fondamentales d’un pays, et en particulier à menacer directement la société, la population ou l’Etat en tant que tel », peut justifier une atteinte plus forte aux droits fondamentaux et, notamment, une obligation généralisée de conserver des données de trafic et de localisation. Mais cette obligation ne peut être justifiée que pendant une période limitée durant laquelle il existerait des « circonstances suffisamment concrètes permettant de considérer que l’Etat (…) fait face à une menace grave » pour sa sécurité nationale. Une commission indépendante ou un tribunal doit valider l’existence d’une telle menace.

Les trois niveaux de gravité
• Le deuxième niveau de gravité concerne la lutte contre la criminalité grave et les menaces graves contre la sécurité publique. Pour ce niveau, une obligation de conservation systématique et continue de données est exclue. Selon la CJUE, il faudrait qu’il existe un lien, même indirect, entre les données dont la conservation est demandée, et la détection ou la répression d’un crime grave. Ainsi, les demandes de conservation de données de trafic et de localisation doivent être ciblées, concernant un groupe particulier de personnes, ou une zone géographie à risque, par exemple les données de trafic autour d’une gare. En revanche, s’il s’agit uniquement des adresses IP, ceux-ci peuvent être stockés de manière généralisée, selon la justice européenne.
• Le troisième niveau concerne toutes les formes de criminalité. Seul le stockage des données relatives à l’identité civile des utilisateurs peut être envisagé. La conservation d’autres données est exclue.
Cette approche graduée découle naturellement de la jurisprudence de la CJUE en matière de proportionnalité – plus la menace pour l’Etat et les citoyens est élevée, plus le niveau d’ingérence avec la vie privée peut être élevé.

Algorithmes de détection en temps réel
La France devra donc réécrire ses lois pour introduire une différenciation entre les menaces graves pour la sécurité nationale (menaces de niveau 1), menaces graves pour la sécurité publique et lutte contre la criminalité grave (menaces de niveau 2), et lutte contre la criminalité ordinaire (menaces de niveau 3). A chaque niveau correspondra des règles adaptées en matière de conservation des données.
L’autre leçon de la décision de la CJUE concerne la régulation des algorithmes utilisés par l’administration française pour détecter des projets terroristes. Depuis la loi de 2015 sur les techniques de renseignement (6), les services spécialisés – désignés par décret en Conseil d’Etat – ont la possibilité de procéder à l’analyse automatique des données de trafic et de localisation en temps réel afin de détecter des signaux faibles d’activités terroristes. Cette possibilité est strictement encadrée par la Commission nationale de contrôle des techniques de renseignement (CNCTR (7)), et la période d’expérimentation doit prendre fin le 31 juillet 2021. Le gouvernement a récemment proposé d’étendre la période d’expérimentation des algorithmes jusqu’à fin décembre 2021.
L’utilisation de l’intelligence artificielle pour lutter contre le terrorisme est controversée, car les algorithmes sont faillibles et peuvent tirer des conclusions erronées et discriminatoires. Dans sa décision du 6 octobre, la CJUE fournit une feuille de route sur la possibilité de déployer ces outils.
D’abord, la justice européenne confirme que l’analyse des données de trafic et de localisation en temps réel constitue une ingérence « particulièrement grave » avec la protection de la vie privée. Le déploiement d’un tel dispositif doit être prévu par une loi claire et précise qui définit les limites et les mesures de protection accompagnant le dispositif. La CJUE indique que le dispositif ne peut se justifier qu’en présence d’une menace grave pour la sécurité nationale qui s’avère « réelle et actuelle ou prévisible ». Un tribunal ou autorité administrative indépendante doit contrôler l’existence d’une telle menace, et ses décisions doivent avoir un effet contraignant. En ce qui concerne l’algorithme lui-même, les modèles et critères préétablis doivent être « spécifiques et fiables, permettant d’aboutir à des résultats identifiant des individus à l’égard desquels pourrait peser un soupçon raisonnable de participation à des infractions terroristes et, d’autre part, non discriminatoires ». Les modèles et critères préétablis ne peuvent se fonder seulement sur des données sensibles. Les termes utilisés par la CJUE suggèrent que l’algorithme pourrait éventuellement s’appuyer – en partie – sur des données sensibles, ce qui semble en contradiction avec le règlement général sur la protection des données (RGPD) en vigueur au niveau européen. La CJUE indique ensuite que tout algorithme comporte un taux d’erreur, et que tout résultat positif doit être soumis à un réexamen individuel par un analyste humain avant la mise en œuvre d’autres mesures de surveillance. Cette exigence de la CJUE pose la question de la compréhension de la recommandation algorithmique par l’analyste humain et sa capacité de contredire l’algorithme. Pour qu’il y ait une vraie intervention humaine, l’algorithme doit être en mesure d’expliquer pourquoi il a détecté des signaux faibles d’activités terroristes, et l’analyste humain doit être en mesure d’apporter une analyse critique par rapport à l’explication donnée par l’algorithme. Lorsque l’algorithme s’appuie sur des techniques d’apprentissage-machine (machine learning), de telles explications peuvent s’avérer difficiles. La CJUE impose un réexamen régulier de l’algorithme et les données utilisées pour garantir l’absence de discrimination et le caractère strictement nécessaire du dispositif à la lumière de la menace terroriste. La fiabilité et l’actualité des modèles et critères préétablis, et les bases de données utilisées, doivent également être revues régulièrement par une autorité de contrôle, soit une forme de suivi dynamique. Enfin, si l’algorithme débouche sur la surveillance plus poussée d’un individu, celui-ci doit être informé dès le moment où cette communication n’est pas susceptible de compromettre les missions incombant aux autorités.

Renseignement : la loi française à réécrire
Réunie le 7 juillet 2020, la commission de la Défense nationale et des Forces armées de l’Assemblée nationale a estimé que le recours aux algorithmes était utile et nécessaire dans lutte contre le terrorisme et devrait être pérennisé, voire étendu pour permettre l’analyse d’autres données, telles que des URL (8) de sites web consultés (9). Au moment de sa séance, la commission parlementaire avait connaissance de l’affaire pendante devant la CJUE et a reconnu que celle-ci pourrait avoir un profond impact sur les méthodes utilisées en France. Elle ne s’y est pas trompée : la décision du 6 octobre impose une réécriture de la loi française sur les techniques de renseignement. @

* Winston Maxwell, ancien avocat, est depuis juin 2019
directeur d’études Droit et Numérique à Telecom Paris.

Pour la reconnaissance faciale à distance ou locale, les enjeux éthiques ne sont pas les mêmes

Identifier un visage dans une foule soulève de sérieuses questions sur les libertés individuelles. Mais il existe de nombreux autres usages de la reconnaissance faciale, notamment la validation d’identité en local. Ces utilisations ont vocation à se développer mais posent d’autres questions éthiques.

Par Winston Maxwell* et David Bounie**, Telecom Paris, Institut polytechnique de Paris

L’utilisation de la reconnaissance faciale pour l’identification à distance constitue une menace pour les libertés individuelles, car cela tend à banaliser une société de surveillance. Selon le New York Times, une start-up américaine Clearview AI a déjà fabriqué des gabarits d’identification de 3 milliards d’individus à partir d’images copiées sur le Web (1). N’importe quelle force de l’ordre – mais pas le grand public (2) – peut utiliser le logiciel de Clearview AI et identifier les visages dans une foule. Cependant, plusieurs villes américaines ont temporairement banni cette utilisation de la technologie par leurs autorités publiques.

Outils de surveillance généralisée
En Europe, la Commission européenne appelle à un grand débat européen sur l’utilisation de la reconnaissance faciale pour l’identification à distance. En France, le secrétaire d’Etat au numérique, Cédric O, souhaite lancer des expérimentations. Pour l’identification à distance, il faut avancer à tâtons pour trouver le bon équilibre entre les impératifs de sécurité publique et la préservation des valeurs démocratiques. Mais ce débat n’est pas différent au fond de celui qui, depuis 50 ans, entoure les technologies de surveillance des communications électroniques. La technologie utilisée pour la surveillance des communications n’a pas cessé d’évoluer : IMSI-catchers ou intercepteurs d’IMSI (3), boîtes noires, Deep Packet Inspection (DPI), captation à distance, … Ces outils permettraient une surveillance généralisée de la population. Leur utilisation en France est interdite, sauf par les forces de polices et des autorités de renseignement sous le contrôle de juges et de la CNCTR (4).
En application de la jurisprudence européenne, l’utilisation de technologies invasives de surveillance par l’Etat se justifie uniquement si l’utilisation est prévue par une loi. Et ce, pour faire face à une menace particulièrement grave, la lutte contre le terrorisme par exemple, et sous le contrôle d’un juge ou d’une commission indépendante. L’utilisation de la reconnaissance faciale pour identifier les individus à distance devrait suivre la même trajectoire : interdiction, sauf pour les autorités de police ou de renseignement sous le contrôle des juges. D’ailleurs, c’est déjà ce qui est prévu par la directive européenne européenne dite « Police-Justice » (5) de 2016, puisque la reconnaissance faciale est un traitement biométrique soumis à des règles strictes. Mais il existe un deuxième type d’utilisation, non-évoqué par la Commission européenne dans son livre blanc (6) sur l’intelligence artificielle (IA). Il s’agit de valider l’identité « en local » d’un individu en comparant sa photo « selfie » avec la photo de la pièce d’identité. Cette utilisation permet notamment d’ouvrir un compte bancaire à distance ou bien de passer plus vite dans un portique automatique à l’aéroport. Cette utilisation de la reconnaissance faciale se généralise, et elle paraît – de prime abord – moins attentatoire aux libertés individuelles : d’une part, parce que les personnes sont conscientes et consentantes de l’utilisation (ce qui n’est pas le cas pour l’identification à distance) ; d’autre part, parce qu’aucune image ni gabarit biométrique n’est stocké de manière centralisée. La vérification s’effectue en local, comme pour déverrouiller un smartphone avec l’empreinte digitale. Le système crée un gabarit biométrique à partir de la photo du passeport, analyse ensuite la photo de selfie, crée un deuxième gabarit biométrique du selfie, et compare les deux gabarits pour établir une probabilité de correspondance. Ensuite les gabarits sont détruits (lire encadré page suivante). La reconnaissance faciale locale soulève néanmoins des questions éthiques et juridiques importantes : l’existence d’un consentement libre, le problème des biais, l’explicabilité des algorithmes, et la difficile articulation avec le règlement général sur la protection des données (RGPD) pour la phase d’entraînement. La reconnaissance faciale « locale » pose la question du consentement libre. Si la personne subit des conséquences négatives en refusant la reconnaissance faciale, le consentement ne sera pas libre. Il en sera de même si le consentement est demandé par une personne jouissant d’une position d’autorité, par exemple si la direction d’un lycée demandait aux élèves de consentir à l’utilisation de la reconnaissance faciale pour rentrer dans l’établissement (7).

Les biais statistiques sont inévitables
Concerne les biais cette fois, le Parlement européen a appelé le 12 février 2020 à l’utilisation d’algorithme qu’il faut entraîner avec des données « non-biaisées » (8). Or, une telle condition est impossible à satisfaire en pratique. Certains groupes de la population seront toujours sous-représentés dans les images d’entraînement, ce qui signifie que les biais statistiques seront inévitables. Cela peut conduire à des niveaux de performance inégaux selon le genre, la couleur de peau ou la situation de handicap d’une personne. Par exemple, l’algorithme pourrait avoir plus de difficulté à identifier une femme noire qu’un homme blanc au moment de la vérification de l’identité à l’aéroport. Ces biais peuvent exister sous une forme bien pire chez les humains. Mais pour un algorithme, ce genre de biais est peu acceptable. Corriger ces biais dans l’algorithme est possible, mais cela soulève d’autres questions. Par exemple, si l’algorithme a un taux d’erreur élevé pour des personnes atteintes d’une certaine maladie de la peau, devons-nous baisser artificiellement le niveau de performance pour tous les autres groupes de la population pour que le taux d’erreur soit équivalent ? Ces questions deviennent rapidement politiques : à partir de quel moment un biais algorithmique devient-il suffisamment problématique pour le corriger, ce qui affectera inévitablement la performance de l’algorithme pour les autres personnes ?

Savoir s’il y a discrimination algorithmique
Un autre aspect éthique de la reconnaissance faciale concerne l’explicabilité des algorithmes. En France, le code des relations entre le public et l’administration garantit à chaque individu le droit d’obtenir une explication lorsqu’un algorithme géré par l’Etat prend une décision à son encontre (9). Logiquement, ce droit exige que l’exploitant de l’algorithme soit en mesure d’expliquer à une personne pourquoi un système n’a pas pu vérifier son image par rapport à sa pièce d’identité. Techniquement, des solutions d’explicabilité existent, même pour des réseaux de neurones. Mais fournir une explication exige le stockage d’informations, et notamment les gabarits générés par l’algorithme. Or, le RGPD et la directive « Police- Justice » interdisent généralement ce stockage, surtout lorsqu’il s’agit de données biométriques.
Résultat : dans certains cas, il n’y aura aucune explication quant au refus du système de vérifier l’identité. Le système ne réussira pas à identifier la personne, sans que la personne puisse vérifier si elle a fait l’objet d’une discrimination algorithmique. Cette absence de transparence pose une difficulté au niveau des droits fondamentaux, comme le démontre une récente décision du tribunal de la Haye (10).
Enfin, l’entraînement des algorithmes de reconnaissance faciale est difficile à réconcilier avec le RGPD. Pour réduire les discriminations, l’Agence européenne des droits fondamentaux (FRA) souligne la nécessité d’entraîner l’algorithme sur une grande quantité d’images représentatives de la population, et notamment les personnes vulnérables (11). Or cette condition est quasiment impossible à remplir en Europe puisque le RGPD et la directive « Police-Justice » interdisent la création de grandes bases d’images, surtout lorsque les images sont étiquetées selon la couleur de peau ou la situation de handicap. Les systèmes américains et chinois bénéficient, eux, d’entraînement sur des dizaines de millions d’images, ce qui crée un avantage concurrentiel considérable. De plus, les tests de non-discrimination des algorithmes s’effectuent tous aux Etats-Unis à l’agence NIST (12), même pour les systèmes européens.
L’entraînement des algorithmes pose un problème particulier puisque le gabarit d’un visage est considéré comme une donnée biométrique. Or le RGPD interdit le traitement de données biométriques, hormis des cas limités – par exemple, le consentement explicite de la personne. Du coup, un entraînement sur des millions d’images récupérées sur Internet devient impossible par une société européenne puisque l’entraînement nécessite la création, au moins temporaire, de gabarits, une donnée biométrique. Une solution pourrait consister en l’assouplissement des conditions d’application du RGPD lorsqu’il s’agit de créer des gabarits éphémères pour l’apprentissage des algorithmes dans des environnements contrôlés, voire de considérer que ces gabarits ne sont pas des données biométriques puisque la finalité de leur traitement n’est pas l’identification d’une personne mais seulement l’entraînement de l’algorithme. Lorsque l’algorithme est mis en exploitation, les dispositions du RGPD ou de la directive « Police-Justice » sur la biométrie retrouveraient toute leur force, puisque les gabarits seraient bien utilisés pour identifier des personnes. Le consentement explicite de la personne, ou en cas d’intérêt public et de nécessité absolue, serait alors nécessaire. @

* Winston Maxwell, ancien avocat, est depuis juin 2019 directeur d’études
Droit et Numérique à Telecom Paris. ** David Bounie est directeur du
département Economie et Sciences sociales à Telecom Paris.

ZOOM

Qu’est-ce qu’un gabarit ?
Un gabarit est l’équivalent d’un code barre qui contient les mensurations uniques d’un visage. La clé du succès en matière de reconnaissance faciale est de créer un algorithme capable de générer des gabarits de qualité à partir d’images d’individus. Un algorithme de qualité doit savoir générer le même gabarit pour l’image de Paul, quelles que soient les différences de lumière, d’angle de vue et de netteté de l’image de Paul. Pour entraîner l’algorithme, on va présenter à un réseau de neurones 100 photos d’une même personne — par exemple Angelina Jolie — récupérées sur le Web, avec des angles de vue et des lumières différents, et demander au réseau de neurones de trouver une formule mathématique qui permettra pour chaque photo d’Angelina Jolie de générer le même gabarit, quels que soient l’angle de vue ou la lumière. Les gabarits générés pendant l’apprentissage sont éphémères. Ils servent uniquement à aider l’algorithme à trouver la bonne formule mathématique. Une fois cette formule mathématique unique établie, elle peut s’appliquer à n’importe quelle nouvelle photo de passeport et générer, pour cette photo, un gabarit de qualité. L’algorithme va ensuite générer un deuxième gabarit à partir d’une deuxième photo (par exemple un selfie), et si l’algorithme est bien fait, les deux gabarits vont correspondre malgré les différences d’angle de vue et de lumière. La qualité de cet algorithme est au cœur des systèmes de reconnaissance faciale. @