どのような情報は、"個人を特定できる"とは?

によって2009年9月12日 · コメントオフ
下でファイルされる: オンラインプライバシーを

医療記録は、X氏が郵便番号02138に住んでいると1945年7月31日生まれというデータが含まれています。 ミスターXのような音は右、かなり無名です?

あなたはだていない場合Latanyaウィーニー - 、この情報は、ミスターXのより馴染みの身元を突き止めるのに十分であったこと、1997年に示したカーネギーメロン大学コンピュータサイエンスの教授ウィリアム溶接 、1990年代を通じてマサチューセッツ州の知事。

性別、郵便番号、および生年月日が匿名感じるが、そのようなデータは米国の人口の約87%のためのユニークな それは、あなたが米国に住んでいれば、あなたが他の米国の居住者でこれらの属性のすべての3つを共有していない87%のチャンスがある、ということです。 人の識別の可能性を狭める後、1つはその後者の氏名又は名称及び住所を確認するには、"ブートストラップ"するような有権者登録の記録、財産記録、および他のオンライン情報源として追加のデータソースを、使用することができます。

"個人情報"(PII)の概念で現代的なプライバシー規則および討論の中心。 PIIは、特定の、通常、名前と住所によって個人、およびそのようなPIIデータはない情報より敏感であると考えているを識別する情報です。 例えば、

  • 連邦政府の健康のプライバシー法は、カテゴリ保護された健康情報(PHI)と呼ばれるための基礎として、患者に関する"個人を特定できる健康情報"を使用します。
  • 連邦政府の電気通信のプライバシー規制では、カテゴリカスタマ独自のネットワーク情報(CPNI)と呼ばれるための基礎として、加入者に関する"個人を特定できる情報"を使用、
  • 連邦政府の金融プライバシー法EUデータ保護指令 、および状態のプライバシー法は、分類PIIデータに類似した概念を使用してください。

上記のカテゴリのそれぞれで、一部のデータは、個人の身元を保護するために増加した保護を受け取るために"個人を特定できる"または"個別に識別可能な"されていると考え。

しかし、教授スウィーニーらによる研究は、実際に個々を識別するために使用できる非常に無害な、中立的、または"一般的"に見えるものも含め、その驚くほど多くの事実を、、を示しています。 プライバシー法は、技術的な現実に追いついていない、とあなたの情報がオンラインで利用可能な場合は、おそらく(市場にどのような良い方法、そしてバイヤーがかもしれない誰が知ることによって)同定され、プロファイリングされている。

だから、どのような種類のデータを特定し、プロファイリングに採掘されている? 人口統計データ、検索用語、ご購入の習慣、好みや音楽、本、または映画についての意見、そしてあなたのソーシャルネットワークの構造 (あなたの友人と連絡先のアイデンティティが共有されていない場合でも)。 私たちの社会が相互に作用し、ワールドワイドウェブを介して通信するように、特定のレコードが参照している人を正確に絞り込むために使用されているより多くの情報源があります。 と、それに応じて、オンライン出版のためのあなたの"趣味"の長期的影響(例えば、ブログ、抜き出し、等)があるかもしれないとどのようにこのデータが続いて、分析し、関連付けられている個人データをアップロードするのプライバシーへの影響について考える必要がありますレコードがユーザーを識別する。

"個人を特定できる"どのような情報です?

テクニカル分析セスシェーン

ミスターXは、郵便番号02138に住み、1945年7月31日生まれ。

彼についてのこれらの事実は、一般に公開匿名化された医療記録に含まれていた。 ミスターXのような音は右、かなり無名です?

あなたはだていない場合Latanyaスウィーニー 、カーネギーメロン大学コンピュータサイエンスの教授は、この情報が十分であることを1997年に示した -ミスターXのより馴染みの身元を突き止めることがウィリアムウェルド 、1990年代を通じてマサチューセッツの知事。

性別、郵便番号、および生年月日が匿名感じるが、教授はスウィーニーには二つの理由からそれらを介して知事の溶接を識別することができた。 最初に、個々の(または他の種類の我々は通常の識別として考えていない可能性があります事実の)約これらの事実は、それぞれ独立してあまりにも多いので組み合わせ(性別、郵便番号、誕生日が)という、人口を絞り込むことが約87のためのユニークだった米国の人口の% あなたが米国に住んでいる場合、あなたが他の米国の居住者でこれらの属性のすべての3つを共有していない87%の可能性は大だ。 名前と住所のような伝統的な識別子を含む - 第二に、人々はより多くを学ぶために彼らが誰かについて知っているブートストラップするために検索を行うことができる利用可能な特定のデータソース(スウィーニーはマサチューセッツ州の有権者登録のデータベースを使用)が存在する可能性があります。 非常に具体的な意味で、"匿名化"や人々について、"単に人口統計"の情報は、どちらもなることがあります。 (そして自分自身についての、一見些細な情報については、"匿名"ユーザに求めるのウェブサイトは、他のデータベースでその個々を調べても、個々の、または固有のプロファイルを確認するには、その情報を使用することができるかもしれません。)

"個人情報"(PII)の概念上の多くの現代的なプライバシー規則および討論の中心。 PIIの概念は、いくつかの法的制度や多くの企業のプライバシーポリシーによって使用され、一般的に、特定の個人を識別する情報がしないという情報よりもはるかに敏感と考えられている。 例えば、

  • 連邦通信プライバシー法は、お客様独自のネットワーク情報(CPNI)と呼ばれる保護された情報のカテゴリのための基礎として、"個人を特定する情報を"(加入者約)を使用します。
  • 連邦政府の健康のプライバシー規制では、カテゴリ保護された健康情報(PHI)と呼ばれるための基礎として、"個々に識別可能な健康情報を"(患者約)を使用します。
  • 連邦政府の金融プライバシー法EUデータ保護指令 、および状態のプライバシー法は、すべて同じような用語や概念を採用。

そして、それぞれの場合において、事実は"個人を特定できる"または"個別に識別可能な"これらの法令に基づいて劇的に高い保護を受けることができると考えました。

しかし教授はスウィーニーと他の専門家による研究は非常に無害な、中立的、または"一般的"に見えるものも含め、驚くほど多くの事実が、、潜在的に個人を識別できることが実証されています。 主に識別可能の伝統的な直感的な概念にしがみついてプライバシー法は、主として技術的な現実に保たれていない。

ポールオームによる最近の論文では、" プライバシーの破られた約束:匿名化の意外な障害への対応は "、この問題に関する詳細な説明および有用な視点を提供します。 それはLatanyaスウィーニーとのような研究者によって達成deanonymizationの結果どのように表示されるので、教授、オームの論文では、個人のプライバシーに興味を持つ人にとって重要な読書であるアーヴィNarayananが真剣に伝統的なプライバシーの仮定を弱体化させる。 特に、"個人を特定できる情報"と"非個人を特定できる情報"の間でバイナリの区別は維持することがますます困難になります。 特定の情報は"匿名"であることを私たちの直感はしばしば間違っています。 人に関する情報は、より多くの仮定さ​​れたよりも特定しており、長期的に"PII"または"ではないPII"として事実を分類する企業全体を実行し、適切な状況と洞察、情報のほとんどすべての種類の特定の個人を識別する傾向があるかもしれません疑わしいです。

統計的推論とデータベースの巧妙な使用は、おそらく匿名データのdeanonymizationの印象的な例の結果になっています、データの種類は、ほとんどの組織では、PIIとみなされていないこと。 離れて人口統計データ、うまく一意に含める特定することが物事の種類のいくつかの組み合わせから、検索条件を 、ご購入の習慣、 好みや音楽、本、映画などについての意見 、さらにはソーシャルネットワークの構造 -のあなたの友人と連絡先の身元を刈っても純粋に抽象的な意味で、。 Deanonymizationは効果的であり、そしてそれは私達の直観が示すよりも劇的に簡単です。 潜在的に私たちを区別する変数の数を考えると、我々は、はるかに互いに異なる我々が予想以上であり、そして我々は正確に特定のレコードが参照している人に絞り込むために使用される場合があるということを理解よりも、データの複数のソースがあります。

これらの論文の多くは、コンセプトの証明として意味していた:彼らは、誰もがなることを、人々が潜在的にデータのこれらの種類によって再識別できるできないを示す。 すべてのの医療記録は知事溶接のようにするために名前を置くことと同じくらい簡単でした。 はなく、その定格フリックスによって発行されたすべてのユーザ-とNarayananとShmatikovの研究では、決定的にその映画の評価の2つだけNetflixのユーザーを識別。 彼らの目標は、数学的手法の有効性を示すことなので、まだ、これらの研究成果の多くは、意図的に個人のプライバシーを侵害しないように、個人に関する使用可能なすべてのデータを使用しないでください。 現実の世界の攻撃は、同時に人々のアイデンティティに、ナローに入手可能な情報の多くの種類が使用されます。 Bruce Schneier氏が観察したように、このような攻撃は時が解決してくれる、彼らが悪くなることはない。

オームは、連続体として識別可能と考える方が適切だと主張している。 "匿名"または"サニタイズされた"データの概​​念は、その後は問題がある。さえ研究習慣的に共有、または、個人コード番号を割り当てるデータセットを公開。 すでに時と同様に、この練習で目立つ問題があったAOLは"匿名化"の検索ログを公開されてそれらの検索語だけでの内容からいくつかの個体を識別することが判明。

私たちは、"プライバシーの破られた約束は、"彼らの保持と共有の慣行と彼らが使用している匿名化またはpseudonymization技術の有効性についてより批判的に考えるために個人データを扱う人々を奨励願っています。 我々はまた、幅広い視聴者を発見し、研究者間の幅広い議論を開始する役に立てば幸い、技術者、そしてどのような"プライバシー保護"について弁護士がdeanonymizationの時代に意味する必要があります。