Quelles sont les informations "personnellement identifiables"?

Un dossier médical comprend des données que M. X vit dans le code postal 02138 et est né Juillet 31, 1945. Sonne comme M. X est assez anonyme, non?

Pas si vous êtes Latanya Sweeney , une université de Carnegie Mellon professeur d'informatique qui a montré en 1997 que cette information était suffisante pour épingler M. X est l'identité plus familier - William Weld , le gouverneur du Massachusetts dans les années 1990.

Date de sexe, code postal, et la naissance se sentent anonymes, mais ces données est unique pour environ 87% de la population des États-Unis . C'est, si vous habitez aux États-Unis, il ya une chance de 87% que vous ne partagez pas ces trois attributs avec toute autre personne résidant aux États-Unis. Après avoir réduit le potentiel d'identifier de la personne, on peut utiliser d'autres sources de données, tels que les dossiers d'inscription des électeurs, des registres de propriété et d'autres sources en ligne, de «bootstrap» pour ensuite déterminer le nom de la personne et son adresse.

Règles de confidentialité contemporain et centre de débats sur la notion de «renseignements personnellement identifiables" (PII). PII est une information qui identifie une personne en particulier, généralement par le nom et l'adresse, et une telle PII données est considérée comme plus sensible que les renseignements qui ne. Par exemple,

Dans chacune des catégories ci-dessus, certaines données jugées «personnellement identifiables» ou «identifiable individuellement» sont à recevoir des protections accrues afin de protéger l'identité d'un individu.

Cependant, la recherche par le professeur Sweeney et d'autres démontrent que les faits étonnamment nombreux, y compris ceux qui semblent tout à fait inoffensifs, neutre, ou «commune», en fait peut être utilisé pour identifier l'individu. La loi vie privée n'est pas tenue à la réalité technique, et si votre information est disponible en ligne, vous avez probablement été identifié et profilé (quelle meilleure façon de marché, puis par savoir qui pourrait être un acheteur).

Alors, quel type de données est extrait à identifier et à profil que vous? Les données démographiques, vos termes de recherche; vos habitudes d'achat; vos préférences ou des opinions sur la musique, des livres ou des films, et la structure de vos réseaux sociaux (même si les identités de vos amis et contacts ne sont pas partagés). Comme notre société interagit et communique sur le world wide web, il existe des sources de plus en plus qui sont utilisés pour affiner exactement qui un dossier en particulier fait référence. Et, en conséquence, vous devriez réfléchir aux conséquences de la vie privée de télécharger des données à caractère personnel qui pourraient avoir des ramifications à long terme de votre "hobby" pour l'édition en ligne (par exemple, les blogs, Twitter, etc) et comment ces données sont ensuite analysées et associées à dossiers pour vous identifier.

Quelles sont les informations "personnellement identifiables"?

Analyse technique par Seth Schoen

M. X vit en 02138 code postal et il est né Juillet 31, 1945.

Ces faits à son sujet ont été inclus dans un dossier médical anonymisé rendu public. Sonne comme M. X est assez anonyme, non?

Pas si vous êtes Latanya Sweeney , une université de Carnegie Mellon professeur d'informatique qui a montré en 1997 que cette information était assez à cerner M. X est l'identité plus familier - William Weld , le gouverneur du Massachusetts dans les années 1990.

Date de sexe, code postal, et la naissance se sentent anonymes, mais le professeur Sweeney a réussi à identifier Weld gouverneur à travers eux pour deux raisons. Tout d'abord, chacun de ces faits sur un (ou d'autres types de faits que nous pourrions généralement pas penser que l'identification) individuels se rétrécit vers le bas indépendamment de la population, tant et si bien que la combinaison de (sexe, code postal, date de naissance) était unique pour environ 87 % de la population des États-Unis . Si vous vivez aux États-Unis, il ya une chance de 87% que vous ne partagez pas ces trois attributs avec toute autre personne résidant aux États-Unis. Deuxièmement, il peut y avoir notamment des sources de données disponibles (Sweeney utilisé un électeur du Massachusetts d'enregistrement de base de données) qui permettent aux gens de faire des recherches pour amorcer ce qu'ils savent au sujet de quelqu'un dans le but d'en apprendre davantage, y compris les identificateurs traditionnels tels que le nom et l'adresse. Dans un sens très concret, "anonyme" ou "simplement démographique» des informations sur les gens peuvent être ni. (Et un site Web qui vous demande "anonyme" utilisateurs pour obtenir des informations apparemment anodin sur eux-mêmes peut-être en mesure d'utiliser cette information pour faire un profil unique pour un individu, ou même regarder cette personne dans les autres bases.)

Beaucoup de règles de confidentialité contemporain et centre de débats sur la notion de «renseignements personnellement identifiables" (PII). Le concept PII est utilisé par plusieurs régimes juridiques et politiques de confidentialité de nombreuses organisations, généralement, l'information qui identifie une personne en particulier est considéré comme beaucoup plus sensible que les renseignements qui ne. Par exemple,

et, dans chaque cas, des faits considérés comme «personnellement identifiables» ou «identifiables individuellement" peut recevoir des protections considérablement plus élevés en vertu de ces lois et règlements.

Mais la recherche par le professeur Sweeney et d'autres experts ont démontré que les faits étonnamment nombreux, y compris ceux qui semblent tout à fait inoffensifs, neutre, ou «commun», pourrait identifier un individu. La loi de confidentialité, principalement accroché à une notion traditionnelle intuitive d'identifiabilité, a largement pas suivi à la réalité technique.

Un article récent de Paul Ohm, " Broken Promises de protection des renseignements personnels: En réponse à l'échec surprenant de l'anonymisation ", fournit une introduction complète et une perspective utile sur cette question. La communication du professeur d'Ohm est une lecture importante pour quiconque s'intéresse à la vie privée, car il montre comment les résultats obtenus par les chercheurs deanonymization comme Latanya Sweeney et Arvind Narayanan gravement atteinte à la vie privée des hypothèses traditionnelles. En particulier, la distinction binaire entre «information personnellement identifiable" et "non-information personnellement identifiable» est de plus en plus difficile à soutenir. Notre intuition que certaines informations est «anonyme» est souvent erroné. Compte tenu des circonstances appropriées et de perspicacité, presque tout type d'information pourrait avoir tendance à identifier un individu, informations sur les personnes est plus que l'identification a été pris en charge, et dans le long terme, toute l'entreprise de classer les faits comme «PII» ou «non IPI» est discutable.

L'inférence statistique et l'utilisation intelligente des bases de données a donné lieu à des exemples impressionnants de deanonymization des données prétendument anonymes, les types de données que la plupart des organisations n'ont pas considéré comme PII. En dehors de combinaisons de données démographiques, certains des sortes de choses qui peuvent ainsi identifier de manière unique que vous incluez vos termes de recherche , vos habitudes d'achat; vos préférences ou des opinions sur la musique, des livres ou des films , et même la structure de vos réseaux sociaux - dans un sens purement abstraite, même si dépouillé de l'identité de vos amis et contacts. Deanonymization est efficace, et c'est nettement plus facile que nos intuitions suggèrent. Étant donné le nombre de variables qui pourraient nous distinguent, nous sommes beaucoup plus différents les uns des autres que nous attendons, et il ya plus de sources de données que nous nous rendons compte que peut être utilisé pour affiner exactement qui un dossier en particulier fait référence.

Beaucoup de ces documents ont été conçu comme des preuves de concept: ils montrent que les gens peuvent éventuellement être ré-identifiés par ces types de données, non pas que tout le monde sera. Pas tout le monde de l 'dossiers médicaux étaient aussi faciles à mettre un nom comme gouverneur Weld a. Et Narayanan et de la recherche Shmatikov a définitivement identifié seulement deux utilisateurs de Netflix à partir de leurs notes de cinéma - pas tous les utilisateurs dont les notes ont été publiées par Netflix. Pourtant, beaucoup de ces résultats de la recherche, délibérément, ne pas utiliser toutes les données disponibles sur les individus, parce que leur but est de montrer l'efficacité des techniques mathématiques, de ne pas violer la vie privée des individus. Le monde réel les attaques utilisent de nombreux types d'informations plus accessibles simultanément à circonscrire l'identité des gens. Comme Bruce Schneier a observé, ces attaques que s'améliorer au fil du temps, ils n'ont jamais qu'empirer.

Ohm fait valoir qu'il est plus approprié de penser à l'identifiabilité comme un continuum. La notion de données "anonymes" ou "aseptisé" est alors problématique, les chercheurs habituellement action, ou même de publier, des ensembles de données qui attribuent des numéros de code pour les individus. Il ya déjà eu des problèmes évidents de cette pratique, comme quand AOL a publié "anonymes" journaux de recherche qui s'est avéré d'identifier certains individus à partir du contenu de leurs termes de recherche uniquement.

Nous espérons que "Broken Promises de la vie privée» encourage les gens qui travaillent avec des données à caractère personnel à penser de façon plus critique au sujet de leur conservation et les pratiques de partage et de l'efficacité des techniques d'anonymisation ou la pseudonymisation qu'ils utilisent. Nous espérons également qu'il trouve un large public et contribue à lancer une large discussion entre les chercheurs, technologues, et les avocats au sujet de ce "protection des renseignements personnels» devrait signifier à l'ère de deanonymization.

No related posts.

Commentaires

Les commentaires sont fermés.