L'anonymisation des données

1. Pourquoi anonymiser dans le cadre de l’open data ?

A titre général, le Règlement général sur la protection des données (RGPD) n’impose pas aux administrations d’anonymiser les documents qu’elles détiennent. L’anonymisation n’est qu’une solution parmi d’autres pour pouvoir exploiter des données à caractère personnel dans le respect des droits et libertés des personnes.

En revanche, lorsque les administrations souhaitent diffuser ces documents (ou des données qu’ils contiennent), par exemple en les publiant en ligne, leur anonymisation préalable est une obligation légale qui s’impose à elles par principe en application de l’article L. 312-1-2 du CRPA1.  Ainsi lorsque les documents administratifs comportent des données à caractère personnel, ils ne peuvent être rendus publics qu'après avoir fait l'objet d'un traitement permettant de rendre impossible l'identification de ces personnes.

Une fois anonymisées, les données ne peuvent plus être reliées à une personne. Les impacts potentiels de leur diffusion ou de leur réutilisation sur la vie privée des personnes concernées sont ainsi grandement limités.

Par exception l’anonymisation n’est pas requise si une disposition légale contraire de nature législative en dispense l’administration, si les personnes concernées ont donné leur accord, ou si le document dont la diffusion est envisagée appartient à l’une des catégories figurant à l’article D. 312-1-3 du CRPA.

 

2. Qu’est-ce que l’anonymisation ?

L’anonymisation est un traitement qui consiste à utiliser un ensemble de techniques de manière à rendre impossible, en pratique, toute identification de la personne par quelque moyen que ce soit et ce de manière irréversible.

Lorsque l’anonymisation est effective, le RGPD ne s’applique plus aux données ainsi anonymisées, celles-ci n’étant dès lors plus à caractère personnel2

Attention, l’anonymisation ne doit pas être confondue avec la pseudonymisation. La pseudonymisation est un traitement de données à caractère personnel réalisé de manière à ce qu'on ne puisse plus attribuer les données relatives à une personne physique sans avoir recours à des informations supplémentaires. En pratique la pseudonymisation consiste à remplacer les données directement identifiantes (nom, prénom, etc.) d’un jeu de données par des données indirectement identifiantes (alias, numéro séquentiel, etc.).

La pseudonymisation permet ainsi de traiter les données d’individus sans pouvoir identifier ceux-ci de façon directe. En pratique, il est toutefois bien souvent possible de retrouver l’identité de ceux-ci grâce à des données tierces. C’est pourquoi des données pseudonymisées demeurent des données à caractère personnel. L’opération de pseudonymisation est réversible, contrairement à l’anonymisation.

 

3. Comment anonymiser tout en préservant au maximum l’utilité du jeu de données?

Puisque le processus d’anonymisation vise à éliminer toute possibilité de ré-identification, il implique une nécessaire perte de qualité des données. Leur exploitation future est ainsi limitée à certains types d’utilisation. Ces contraintes sont à prendre en compte dès le début de votre projet.

Pour construire un processus d’anonymisation pertinent, il est ainsi conseillé de :

  • supprimer les éléments d’identification directe et les valeurs rares ;
  • définir les informations importantes, secondaires et inutiles (i.e. supprimables) ;
  • définir la finesse idéale et acceptable pour chaque information conservée ;
  • définir les priorités (i.e. est-il plus important de conserver une grande finesse sur telle information ou de conserver telle autre information ?).

Ce questionnement aide à déterminer le procédé d’anonymisation à appliquer, c’est-à-dire l’enchaînement des techniques d’anonymisation à mettre en place qui peuvent être regroupées en deux familles : la randomisation et la généralisation.

  • La randomisation consiste à modifier les attributs dans un jeu de données de telle sorte qu'elles soient moins précises, tout en conservant la répartition globale. Cette technique permet de protéger le jeu de données du risque d’inférence.
  • La généralisation permet de généraliser les attributs du jeu de données afin de s’assurer qu’ils soient communs à un ensemble de personnes. Cette technique permet d’éviter l’individualisation d’un jeu de données. Elle limite également les possibles corrélations du jeu de données avec d’autres.

 

4. Comment vérifier l’efficacité de l’anonymisation ?

Les autorités de protection des données européennes3 définissent trois critères qui permettent de s’assurer qu’un jeu de données est véritablement anonyme :

1. l’individualisation : il ne doit pas être possible d’isoler un individu dans le jeu de données ;

Exemple : Une base de données où seuls les noms et prénoms d’une personne auront été remplacés par un numéro qui ne correspond qu’à elle permet d’individualiser cette personne. Cette base serait considérée comme pseudonymisée et non comme anonymisée.

2. la corrélation : il ne doit pas être possible de relier entre eux des ensembles de données distincts concernant un même individu ;

Exemple : une base de données cartographique renseignant les adresses de domiciles de particuliers ne peut être considérée comme anonyme dès lors que d’autres bases de données existantes par ailleurs qui contiennent ces mêmes adresses contiennent également d’autres données permettant d’identifier les individus.

3. l’inférence : il ne doit pas être possible de déduire de façon quasi certaine de nouvelles informations sur un individu.

Exemple : si un jeu de données contient des informations sur le montant des impôts de personnes ayant répondu à un questionnaire, et que tous les hommes ayant répondu sont non imposables, il sera possible de déduire, si on connait un homme qui a répondu au questionnaire, qu’il est non imposable.

Les techniques d’anonymisation et de ré-identification étant amenées à évoluer régulièrement, il est indispensable pour tout responsable de traitement mettant en œuvre des solutions d’anonymisation, d’effectuer une veille régulière pour préserver, dans le temps, le caractère anonyme des données produites.

Si un jeu de données publié en ligne comme anonyme contient en réalité des données à caractère personnel sans que l’une des exceptions mentionnées à l’article L.312-1-2 du CRPA ne soit applicable, une violation de données est susceptible d’être caractérisée4. Il convient dès lors de procéder au retrait du jeu de données en question dans les plus brefs délais5.

 

 

1 Code des relations entre le public et l’administration.

2 Une donnée à caractère personnel est toute information se rapportant à une personne physique identifiée ou identifiable; est réputée être une « personne physique identifiable » une personne physique qui peut être identifiée, directement ou indirectement, notamment par référence à un identifiant, tel qu'un nom, un numéro d'identification, des données de localisation, un identifiant en ligne, ou à un ou plusieurs éléments spécifiques propres à son identité physique, physiologique, génétique, psychique, économique, culturelle ou sociale. Pour déterminer si une personne physique est identifiable, il convient de prendre en considération l'ensemble des moyens raisonnablement susceptibles d'être utilisés par le responsable du traitement ou par toute autre personne.

3 Voir l’avis Avis 05/2014 du groupe de travail « article 29 » du 10 avril 2014 sur les Techniques d’anonymisation.

4 Selon l’article 4.12) du RGPD constitue une violation de données « une violation de la sécurité entraînant, de manière accidentelle ou illicite, la destruction, la perte, l'altération, la divulgation non autorisée de données à caractère personnel transmises, conservées ou traitées d'une autre manière, ou l'accès non autorisé à de telles données ». https://www.cnil.fr/fr/les-violations-de-donnees-personnelles

5 Dans l’hypothèse où la violation est susceptible d’engendrer un risque pour les droits et libertés des personnes concernées, l’administration à l’origine de la diffusion illicite est tenue d’en informer la CNIL dans un délai maximal de 72h en application de l’article 33 du RGPD. Lorsque ce risque est élevé, elle est tenue d’en informer également les personnes concernées dans les meilleurs délais en application de l’article 34 du RGPD. En tout état de cause, la violation doit être reportée dans le registre interne des violations.

 

Date maj Fiche