Anonymisation des données personnelles : un enjeu de taille, notamment en matière de santé

Alors qu’une deuxième vague de coronavirus menace, le gouvernement croit en l’utilité des données « pseudonymisées » de son application mobile StopCovid malgré le peu d’utilisateurs. Mais le respect de la vie privée ne suppose-t-il pas une « anonymisation » ? Le dilemme se pose dans la santé.

Par Olivia Roche, avocate, et Prudence Cadio, avocate associée, cabinet LPA-CGR avocats

La crise sanitaire liée au covid-19 et le développement concomitant des outils de surveillance de l’évolution de l’épidémie ont mis en lumière les enjeux liés à l’anonymisation des données à caractère personnel et, en particulier, des données de santé. Souvent présenté par la Commission nationale de l’informatique et des libertés (Cnil) comme un moyen indispensable pour préserver la vie privée des personnes, le procédé d’anonymisation aboutit cependant nécessairement à une perte d’informations, parfois contestée par les professionnels de santé.

Pseudonymisation ou anonymisation ?
Les recommandations publiées le 19 mai dernier par la Cnil (1) à ce sujet et les débats entourant l’application mobile StopCovid – mise à disposition par le gouvernement dans le cadre de sa stratégie globale de « déconfinement progressif » – permettent de mieux appréhender ces problématiques. Si cette application mobile ne dispose d’aucune information directement identifiante comme le nom ou le prénom, elle n’est pas pour autant « anonyme » au sens de la règlementation relative à la protection des données (2). La confusion entre « données pseudonymes » et « données anonymes » demeure répandue, alors que le règlement général européen sur la protection des données (RGPD) – en vigueur depuis le 25 mai 2018 – a entériné la distinction entre ces deux notions en son considérant 26.
Comme le rappelle la Cnil, la pseudonymisation consiste à traiter les données personnelles de façon à ce que celles-ci ne puissent plus être attribuées à une personne concernée sans avoir recours à des informations complémentaires. De manière plus concrète, ce processus consiste par exemple à remplacer des données personnelles directement identifiantes telles que le nom ou le prénom par des données indirectement identifiantes te l les qu’un alias, un numéro ou un code. La pseudonymisation constitue ainsi un outil utile pour conserver des données tout en préservant la vie privée des personnes, puisque celles-ci ne sont plus directement identifiantes. Néanmoins, l’opération de pseudonymisation étant réversible, il est possible de réidentifier ou identifier indirectement les personnes sur la base de ces données. En conséquence, les « données pseudonymes » demeurent des « données personnelles » auxquelles s’applique l’ensemble des exigences de la règlementation sur la protection des données personnelles. Au contraire, les « données anonymisées » au sens du RGPD exclut toute possibilité de réidentification des personnes. Il s’agit d’appliquer un procédé aux données personnelles pour rendre toute individualisation et toute indentification, directe ou indirecte, impossible et ce de manière irréversible et définitive. Cette distinction constitue un enjeu central, puisque les « données anonymes » ou « rendues anonymes », lesquelles, contrairement aux « données pseudonymes », ne sont pas ou plus des « données personnelles », ne sont pas soumises aux exigences du RGPD. Ce règlement européen indique, en effet, expressément qu’il ne s’applique « pas au traitement de telles informations anonymes, y compris à des fins statistiques ou de recherche » (3). A cet égard, il faut veiller à distinguer que, lorsqu’un procédé d’anonymisation est appliqué, c’est bien uniquement le résultat obtenu – les « données anonymisées » – qui peut être exclu du champ d’application matériel du RGPD mais non les données à caractère initialement collectées. De même, le processus d’anonymisation constitue un « traitement » qui, effectué sur des données personnelles, n’échappe pas en tant que tel aux exigences de la règlementation sur la protection des données à caractère personnel. Quelles sont au juste les techniques d’anonymisation ?

Randomisation et généralisation
Dans un avis en date du 10 avril 2014, le groupe dit de l’Article 29 – ce « G29 » ayant été remplacé depuis l’entrée en application du RGPD par le Comité européen de la protection des données (4) – proposait trois critères pour s’assurer que des données personnelles faisaient bien l’objet d’un procédé d’anonymisation et non de pseudonymisation : l’individualisation (il doit être impossible d’isoler un individu dans l’ensemble de données), la corrélation (il ne doit pas être possible de relier deux ensembles distincts de données concernant un même individu) et l’inférence (il doit être impossible de déduire une information sur un individu). Pour éliminer toute possibilité d’identification, la Cnil rappelle que deux grandes techniques d’anonymisation sont possibles. La « randomisation » qui consiste à rendre moins précises les données, par exemple en permutant certaines informations dans l’ensemble de données tout en conservant la répartition globale. La seconde technique dite de « généralisation » consiste quant à elle à modifier l’échelle ou l’ordre de grandeur des données (par exemple en ne conservant que l’année de naissance au lieu de la date précise) afin d’éviter l’individualisation ou la corrélation avec d’autres ensembles de données. Ces méthodes d’anonymisation doivent cependant être réévaluées régulièrement car les techniques et possibilités de ré identification évoluent rapidement, à mesure des avancées technologiques.

Impacts sur la vie privée
A cet égard, dans son avis « Techniques d’anonymisation » (5), le G29 indiquait déjà que « le résultat de l’anonymisation, en tant que technique appliquée aux données à caractère personnel, devrait être, dans l’état actuel de la technologie aussi permanent qu’un effacement, c’est-à-dire qu’il devrait rendre impossible tout traitement de données à caractère personnel ». En effet, des données publiées comme « anonymes » à un instant T peuvent, grâce par exemple à une nouvelle technique développée par un tiers, redevenir indirectement identifiantes. Leur publication à titre de « données anonymes », sans veiller au respect du RGPD, pourrait ainsi constituer une violation de données. Si ces procédés d’anonymisation permettent de conserver et de réutiliser des données pour des durées étendues tout en assurant le respect des droits et libertés des personnelles, reste la question de l’utilité de données anonymes, notamment dans le secteur de la recherche scientifique et médicale. Comme le démontrent les débats entourant les traitements de données personnelles mis en œuvre par le biais de l’application mobile StopCovid, l’intérêt scientifique des données anonymes – qui ont perdu tout caractère individualisant – est plus limité.
Depuis toujours la problématique d’anonymisation est très présente dans le secteur de la santé. En effet, les données relatives à la santé des personnes constituent à la fois des données personnelles particulièrement risquées en termes d’impacts sur la vie privée, mais elles constituent également un enjeu important dans le cadre de la recherche scientifique et médicale. Par exemple, dès 2004, la Cnil s’était prononcée sur la volonté de la Fédération nationale de la mutualité française (FNMF) – regroupant 540 mutuelles adhérentes dont 266 mutuelles santé – d’avoir accès sous un format anonymisé à des données figurant sur des feuilles de soins électroniques. Ce traitement devait être mis en œuvre à des fins statistiques pour étudier l’impact d’un remboursement en fonction du service médical rendu pour les médicaments. La Cnil avait autorisé le traitement en donnant des précisions et recommandations strictes sur les modalités d’anonymisation des données, les mesures de sécurité et le respect des droits des personnes concernées (6).
Dans cette lignée, fin avril 2020, la Cnil s’est prononcée favorablement à l’application mobile StopCovid déployée par le gouvernement dans le cadre de sa stratégie de déconfinement progressif – sous réserve que les données personnelles collectées soient traitées sous un format pseudonymisé, puis supprimées de 15 jours ou 6 mois selon les catégories. « La [Cnil] prend acte de ce que l’article 4 du projet de décret [décret du 29 mai 2020 publié au J.O. du 30 mai dernier (7), ndlr] prévoit une conservation des clés et des identifiants associés aux applications pendant la durée de fonctionnement de l’application StopCovid et au plus tard six mois à compter de la fin de l’état d’urgence sanitaire, et une conservation des historiques de proximité des personnes diagnostiquées ou testées positives pendant quinze jours à compter de leur émission » (8).
Cependant, le 21 juin dernier, le Conseil scientifique covid- 19 a publié un avis afin d’indiquer qu’il considérait essentiel d’appliquer l’option prévue par l’article 2 du projet de loi organisant la sortie de l’état d’urgence sanitaire permettant de conserver les données personnelles collectées par StopCovid pour une durée plus longue. Ce conseil scientifique (9) précise en outre que ces données devraient être conservées « sous une forme pseudonymisée et non simplement anonymisée, de façon à ce que les données d’un même individu, non-identifiantes, puissent tout de même être reliées entre elles (ex : documentation d’une ré-infection), ou chaînées avec des données d’autres bases » (10). Cette position illustre parfaitement les enjeux liés à l’articulation entre exploitation des données, durées de conservation et anonymisation ou pseudonymisation.

Risque de seconde vague
La position de la Cnil et l’arbitrage qui sera opéré entre respect de la vie privée et le nécessaire suivi de l’épidémie de covid-19, en particulier avec le risque d’une seconde vague, permettra d’étayer davantage les critères d’application et la distinction entre pseudonymisation et anonymisation. Au 23 juin 2020, soit en trois semaines d’existence de StopCovid, seuls quatorze cas à risque de contamination ont été détectés par l’application mobile. A cette date de premier bilan, elle a été téléchargée 1,9 million de fois, mais désinstallée 460.000 fois. Le gouvernement se dit néanmoins convaincu de son utilité, surtout en prévision de cette seconde vague. @

Les risques du pistage des populations à l’aide des données des opérateurs mobiles et des applications

Le pistage mobile des populations, au nom de la lutte contre le coronavirus, présente des risques sur les libertés fondamentales en général et sur les données personnelles et la vie privée en particulier. De plus, l’efficacité d’une telle pratique technologique reste contestée et controversée.

Par Christophe Chadaillac, avocat, et Héloise Tientcheu, juriste, cabinet Jones Day

« Les technologies numériques, les applications mobiles et les données mobiles ont des atouts formidables qui peuvent nous aider à comprendre le mode de propagation du virus et à réagir efficacement » (dixit Thierry Breton, commissaire européen au Marché intérieur, le 8 avril 2020). Les mesures technologiques envisagées pour contribuer à la lutte contre le covid-19 ne se comptent plus. Mais en plus d’être controversées et leur efficacité remise en cause, elles posent de sérieuses questions sur la préservation de nos libertés fondamentales.

Géolocalisation et contact tracing en question
Un arsenal de mesures est déployé afin de tenter d’enrayer la propagation du covid-19 dans le contexte de la pandémie mondiale actuelle : port de masque, mise en quarantaine des personnes malades, fermeture des lieux accueillant du public, confinement partiel ou total des populations, … A ces mesures de distanciation sociale restreignant la liberté d’entreprendre et la liberté de mouvement des personnes s’ajoutent des mesures technologiques que les Etats et les géants du numérique mettent progressivement en place. Celles-ci reposent sur la géolocalisation, le contact tracing ou la reconnaissance faciale, susceptibles de porter également atteinte à la vie privée et suscitant des interrogations sur l’utilisation des données à caractère personnel. Il est aisé de localiser n’importe quel objet (ordinateur, téléphone portable, tablette, …) connecté à un réseau de communications électroniques (1). La géolocalisation s’appuie notamment sur les technologies GPS ou Galileo utilisées par les applications, ou sur la connexion aux réseaux Wifi ou les antennes de téléphonie mobile.
Dans le cadre de la lutte contre le covid-19, il est avancé que la géolocalisation pourrait utilement servir à l’identification de concentrations de personnes et à l’observation de flux de population grâce à des données anonymisées et agrégées. Et ce, afin de détecter et d’anticiper les potentiels foyers de propagation en vue d’optimiser le déploiement des ressources médicales sur le territoire. Par exemple, Orange a transmis aux autorités françaises des données qui ont permis d’établir que 17 % des Franciliens avaient quitté l’Ile-de-France juste avant la mise en place du confinement. Par ailleurs, les différents opérateurs mobile sont susceptibles de transmettre l’ensemble de leurs données anonymisées au Centre commun de recherche (CCR) de la Commission européenne. Quant à Google et Apple, ils ont également fourni des statistiques d’utilisations de leurs applications montrant des zones de concentration ou des zones vides. La géolocalisation pourrait aussi être employée pour vérifier le respect des obligations de confinement et de distanciation sociale. Les données, cette fois-ci non-anonymisées, permettent – comme en Israël par exemple – de tracer les individus et en cas d’infraction infliger des amendes. En Pologne, les autorités ont couplé données de géolocalisation et reconnaissance faciale : il est demandé aux citoyens de prendre régulièrement un selfie géolocalisé pour démontrer qu’ils respectent la mesure de quarantaine qui leur est imposée.
Le contact tracing consiste, lui, à établir pour les malades récemment contaminés un historique des personnes avec lesquelles ils ont été dans des conditions de proximité susceptibles de permettre une transmission du covid-19 selon des critères d’infectiologie déterminés. La technologie numérique permet l’automatisation de l’établissement de cet historique, grâce à une application installée sur les smartphones et reposant sur la technologie Bluetooth, laquelle permet aux terminaux d’établir des communications radio de courte portée, sans fil. Le contact tracing peut être utilisé pour identifier les chaînes de transmission du virus et ralentir sa propagation en incitant les personnes susceptibles d’être infectées et contagieuses à appliquer les gestes-barrière et à se faire tester le plus rapidement possible. Cet outil se veut particulièrement utile pendant le confinement, mais également lors de phase critique de déconfinement au cours de laquelle de nouveaux foyers de contamination risquent d’apparaître.

Applications mobiles appelées à la rescousse
StopCovid, l’application mobile dont le gouvernement français a révélé le développement le 8 avril dernier, sera une application de contact tracing qui pourrait être mise en service lors du déconfinement. L’approche choisie par la France est celle d’une application pilotée par l’Etat, par l’intermédiaire de l’Inria (2), en partenariat notamment avec Dassault Systèmes, l’Inserm (3), l’Institut Pasteur ou encore Orange, ainsi que sur les conseils du Comité d’analyse de recherche et d’expertise (Care). De multiples initiatives privées émergent en parallèle pour contribuer à cet « effort ». En particulier, Apple et Google collaborent sur la création d’une interface de program-mation en vue de permettre aux applications d’être interopérables. Ces deux géants du numérique, qui ont refusé de collaborer à StopCovid, travaillent également à l’intégration de fonctionnalités de contact tracing directement dans les systèmes d’exploitation Android et iOS.

Des limites techniques et comportementales
Plusieurs pays européens comme l’Allemagne ou la Norvège envisagent d’utiliser le contact tracing, ou le font déjà. La Commission européenne, elle, a insisté sur la nécessité d’une « approche commune » dans l’utilisation des applications mobiles et des données mobiles (4). L’efficacité des solutions reposant tant sur la géolocalisation que sur le contact tracing présentent des limites techniques et comportementales. La géolocalisation ne permet que de rendre compte de concentrations ou de flux de population en masse ou de localiser individuellement des personnes avec une précision relative. Elle ne permet pas d’établir leur proximité physique et fonctionne mal en intérieur. Le Bluetooth, certes, opère mieux en intérieur, mais il n’est pas conçu pour mesurer des distances. D’autant que le champ de détection varie d’un appareil à l’autre et en fonction des circonstances (appareil tenu en main, au fond d’un sac, dans une voiture, etc.), ce qui entraîne un taux non négligeable de faux positifs et de faux négatifs. Il n’y a pas non plus de consensus scientifique sur la durée et la distance de proximité justifiant l’envoi d’une notification. En outre, les systèmes d’exploitation mobiles ne permettent pas aux applications en tâche de fond d’utiliser le Bluetooth, ce qui oblige à conserver en permanence les applications de contact tracing au premier plan pour que les terminaux communiquent. Le gouvernement peine à trouver un accord avec Apple et Google pour lever cette barrière technique (5). Et pour que le contact tracing remplisse pleinement son objectif, il est nécessaire qu’au minimum 60 % de la population utilise l’application. Rendre son utilisation obligatoire paraît difficilement conciliable avec les libertés fondamentales. L’atteinte de ce seuil critique dépend aussi éminemment du taux d’équipement et de la capacité à maîtriser cette technologie. Enfin, le contact tracing peut générer un taux important de faux positifs créant de la panique et de faux négatifs générant un sentiment infondé de sécurité susceptible de favoriser la propagation du virus, surtout dans les zones denses (6). Les données de géolocalisation revêtent un caractère stratégique dans la protection de la vie privée ; les données de santé sont sensibles et appellent des mesures de protection renforcées (7). La problématique liée à la géolocalisation dépend de la finalité des traitements. L’utilisation de données de géolocalisation anonymisées et agrégées en masse évince de prime abord le risque d’atteinte à la vie privée, sans toutefois parvenir à l’éliminer complètement. Si la donnée est simplement « pseudonymisée », ou si en dépit de l’anonymisation il est possible de suivre un identifiant en particulier, alors la ré-identification en exploitant et recoupant les données est possible. Le risque d’atteinte à la vie privée est exacerbé en cas de suivi individualisé des personnes, d’autant qu’elle aboutit à restriction de la liberté de circulation.
Le contact tracing se veut plus respectueux de la vie privée en l’absence de géolocalisation ou de traitement d’autre donnée personnelle que la seule donnée de santé, laquelle doit rester entre les mains des autorités de santé et ne pas être recoupée avec d’autres données. Les différents protocoles envisagés pour sa mise en œuvre ont de commun qu’ils ne devraient pas permettre de faire le lien entre la donnée de santé et l’identité des personnes utilisant l’application, ni d’identifier celles-ci, même si ce point est vigoureusement débattu (8).
L’Union européenne a proposé une « boîte à outils » et des lignes directrices (9). En France, la Cnil a émis des recommandations et réaffirmé l’importance du volontariat, de la sécurité des données personnelles et de la limitation de la durée de leur traitement. Et plusieurs institutions publiques ont été mises à contribution pour apporter des garanties à l’action du gouvernement (Inria, Care, Dinum, ANSSI). Le CNNum a quant à lui rendu un avis favorable sur StopCovid « en tant que brique d’une stratégie plus globale ».

Intimité et droits fondamentaux menacés
Les avis des hérauts de la liberté individuelle sont attendus. Ils verront un piège dans le volontariat et dénonceront l’effet cliquet, déjà tangible : en lui demandant d’accepter volontairement d’abandonner un peu de ses libertés au profit du bien commun, le citoyen est conduit dans un processus progressif qui, de lois anti-terroristes aux états d’urgence sanitaires, l’entraîne dans organisation sociétale qui instrumentalise les données personnelles pour des finalités collectives qui pourraient s’avérer liberticides et de long terme.
Quelle que soit la solution retenue par le gouvernement sur le fonctionnement de StopCovid, une fois les barrières techniques et comportementales levées, l’application devra s’insérer dans une réponse sanitaire globale. Il serait utile que sa mise en œuvre soit accompagnée de discipline et pédagogie renforcées, pour à la fois maintenir les gestesbarrière et préserver – y compris en temps de pandémie – l’intimité qui demeure au cœur des droits fondamentaux de l’individu. @