• 15 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 23/12/2019

Publiez des données anonymes

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Bienvenue dans ce deuxième chapitre au sein duquel vous allez voir les problématiques liées à la publication des données anonymes. Ce chapitre est scindé en deux sections : dans la première, vous verrez la définition du cadre dans lequel s’inscrit la pseudonymisation et dans la seconde section, nous découvrirons ensemble en quoi consiste la méthode de pseudonymisation et quelles sont ses limites.

La mise en contexte

Les données personnelles sont des données sensibles par nature, qui sont produites, en ce qui nous concerne, par des objets connectés.

Ce système a-t-il une limite ?

Oui, il est compliqué et contraignant d’exploiter un système de base de données statistiques, son utilisation n’est donc pas conseillée. Nous l’avons vu au chapitre précédent ! Afin de résoudre les limites des bases de données statistiques, une autre approche consiste à produire un jeu de données inoffensif qui ne présente pas de risque pour la vie privée des personnes concernées, puis le diffuser à ceux qui souhaitent l’analyser. Pour conclure, un mécanisme d’anonymisation de ces données doit être proposé.

Contexte général

La transition des données personnelles aux données anonymes
La transition des données personnelles aux données anonymes

La figure ci-dessus vous montre un aperçu de la transition de données personnelles aux données anonymes. Tout à gauche, vous pouvez voir des individus qui possèdent des objets connectés produisant une quantité importante de données personnelles. Ces données sont localisées sur les dispositifs qui se trouvent près de ces individus. La diffusion de ces données paraît contrôlée.

Processus d’anonymisation :

  • nous envoyons nos données brutes vers un éditeur ou un tiers supposé fiable ;

  • ces données vont ensuite être traitées par un algorithme d’anonymisation, de manière à ce que des données anonymes et aseptisées soient produites ;

  • une fois que la production est faite, ces données peuvent être envoyées aux exploitants, sur lesquels nous ne faisons pas d’hypothèse de confiance.

Il s’agit ici d’un mécanisme dans lequel des individus produisent des données qui sont générées par un éditeur de confiance et ensuite données à des personnes qui ne sont pas nécessairement de confiance.

La structure d’un n-nuplet
La structure d’un n-nuplet

Voici la structure d’un n-nuplet. On y voit 3 composants, "Identifiant", "Données non sensibles" et "Donnée sensible" :

  • composant "Identifiant" : des données sont produites par des individus qui possèdent un nom. Nous faisons l’hypothèse selon laquelle il est possible de lier ce nom à une personne du monde physique ;

  • composant "Données non sensibles" : un certain nombre de données que nous considérerons comme non sensibles (e.g. code postal et âge de la personne) ;

  • composant "Donnée sensible" : une donnée supposée être sensible (poids de la personne).

Approche de la pseudonymisation

C’est quoi exactement, la pseudonymisation ?

Elle consiste pour chaque n-nuplet à retirer les informations directement identifiantes ou à les remplacer par une valeur aléatoire. Pour ce faire, nous supprimons le nom et le remplaçons par un pseudonyme. Nous ne touchons pas aux autres informations et nous les laissons telles quelles.

Quel est l’intérêt de faire cela ?

On suppose qu’il est impossible de faire le lien entre ce pseudonyme et une personne du monde réel. C’est la raison pour laquelle on dit souvent que sur Internet les gens sont protégés, parce qu’ils sont derrière des pseudonymes.

Mais en réalité, ça se passe comment ?

Latanya Sweeney, maintenant professeure de Gouvernement et de Technologie en résidence à l’université de Harvard, et directrice de Data Privacy Lab à l'Institut des sciences sociales quantitatives (IQSS) à Harvard, travaillait à l’époque à SUINAILKI. À la fin des années 1990 et au début des années 2000, elle a publié le résultat de ses recherches, en montrant que les données pseudonymisées ne sont pas sécurisées : on peut les retrouver et refaire le lien entre les données sensibles et les individus du monde réel.

Méthode de Latanya Sweeney

Elle s’est procuré de manière assez simple un certain nombre de bases de données. Elle a trouvé :

  • d’une part, une base de données médicale qui lui a été fournie gratuitement par une mutuelle qui traitait les données des fonctionnaires de l’État, et qui l’a diffusée auprès des chercheurs qui souhaitaient faire des études. Cette mutuelle a aussi diffusé cette liste auprès d’entreprises pour un faible tarif ;

  • d’autre part, elle a pu se procurer pour 20 dollars une base de données électorale de Cambridge, dans le Massachusetts. Cette base de données était nominative. Il avait été estimé qu’elle ne contenait pas d’informations sensibles, donc le fait qu’elle soit nominative n’était pas un problème.

Qu’est-ce qu'il se passe pour la base de données médicale ?

Base de données médicale
Base de données médicale

Il faut souligner que la base de données médicale était protégée par la pseudonymisation. Il n’y avait plus le nom, ni le prénom des individus dans cette base. Néanmoins, Latanya Sweeney connaissait un certain nombre d’informations sur la personne qui l’intéressait, William Weld, qui était gouverneur de l’État à l’époque. Sweeney connaissait sa date de naissance, son sexe ainsi que le code postal de sa résidence. Sa date de naissance et son sexe étaient publics. Son code postal était un peu moins disponible, mais il n’était pas très difficile de le trouver. Ainsi, dans cette base de données médicale anonymisée, elle a retrouvé un certain nombre d’informations.

Et la base de données électorale ?

Base de données électorale
Base de données électorale

Dans la base de données électorale, Sweeney a pu retrouver des informations identifiantes des individus, comme leur nom, leur adresse, leur date d’inscription sur la liste électorale, le parti politique pour lequel ils se déclarent, la date du dernier vote, ainsi que leur date de naissance, leur code postal et leur sexe. Dans les cas des primaires aux États-Unis, c’est important d’obtenir ces informations.

Constat

Bases de données médicale & électorale
Bases de données médicale & électorale

Nous avons trois attributs communs (le code postal, la date de naissance et le sexe) à la base de données médicale et à la base de données électorale. Il est ensuite possible de faire une jointure entre ces deux bases de données sur ces trois attributs. Bien évidemment, nous ne pouvons pas recroiser toutes les personnes de la base de données électorale avec la base de données médicale. Par contre, si l’on trouve un individu unique dans la base de données électorale et dans la base de données médicale, il est fort probable qu’il s’agisse de la même personne.

De manière générale, en s’appuyant sur les données du recensement américain de 1990, Sweeney a montré que sur l’ensemble de la population américaine, 87 % des individus avaient un triplet unique (code postal, sexe et date de naissance). Le pourcentage paraît étonnement grand. En France, cette proportion est également grande : elle est au-delà de 50 %.

Est-ce qu’il faut pseudonymiser ?

La réponse est oui, mais la pseudonymisation ne suffit pas toute seule. L’UE recommande d’ailleurs une pseudonymisation des données en complément d’une anonymisation préventive. En effet, sur des attributs non sensibles, une combinaison de ces attributs va probablement permettre de retrouver quelqu’un, dès lors qu’on a des connaissances annexes sur ces individus. C’est ce qu’on appelle le problème de quasi-identifiant.

Exemple de certificat de réussite
Exemple de certificat de réussite