ビッグデータを語るときに欠かせない「匿名化」とは

 投稿日時
2013/08/26 18:11:39
 最終更新日時
2013/08/26 18:11:39

どのようなデータなら許されるのか

最近、JR東日本がSuicaの乗降履歴データを日立製作所に販売したところ、利用者からの反発があり停止したということがニュースになっています。

この件でYahooニュースなどで目にする記事では
・利用者が「気持ち悪い」と考えているからNG
・これは個人情報ではないからいいのでは
といった意見があるようです。

それらはもちろん正しいのですが、私はビッグデータを語るときに欠かせない一番の要素は「匿名化」だと考えています。
例えば以下のようなデータがそれぞれあるとします。

1.何も隠していないデータ

「個人ID」「個人名」「性別」「生年月日」「乗った駅」「降りた駅」「利用額」

2.個人を特定できそうなものを除いたデータ

「個人ID」「生年月(日は除かれている)」「乗った駅」「降りた駅」「利用額」

3.更に情報を除いたデータ

「生年(月日は除かれている)」「乗った駅」「降りた駅」「利用額」

これを比較するなら、「1が一番個人が特定されやすく、3が一番個人が特定されにくい」と言えるでしょう。 ではこの状態の3は、果たして本当に「匿名化」されているのでしょうか。

答えは「NO」です。
「○○県××市△△町には二十代が少なく、東京に働きに出ている人は一人しかいない」といった場合、上記の3でもその人が特定できてしまいます。
ですのでこういった場合は「該当する人が2人以上のもののみ対象とする」という判断が行われることがあります。(これを「k-匿名性」と言います。)

小手先の対応ではビジネスに活用できない

最近は企業のセミナーでも「ビッグデータを活用して利益を生み出す!」といった文言がよく見られます。
しかし、Suicaの一件で見る限り、自分のデータが勝手に売買される、分析されることを気持ち悪いと思う利用者の数は多く、決して無視できるレベルではありません。

もしビジネスのことを本当に考えるなら、性急にビッグデータ販売を進めるのでは無く、法整備から進める必要があります。
例えばEUおよび英国では、充分なデータ保護レベルを確保していない国には個人データを移動してはいけないという規定があります。(参考:Publickey:国内クラウドがグローバル展開で注意すべき「EUデータ保護指令」とは何か
ビッグデータに詳しい新潟大学の鈴木正朝先生も、「国際水準に達したデータ保護法制のない国にデータはやってこない。」と発言し、データを集める前の法整備の重要性を仰っています。

これらの件から以下のような問題点が見えてきます。

  • ビッグデータはどこまで加工すれば「匿名化」と言えるのか、定義は何なのか。
  • 「匿名化」はデータの種類によって異なる場合があるが、その担保は誰がするのか。
  • 完全に「匿名化」されていれば、本人の同意を得ずに販売していいのか。
  • ビッグデータの「匿名化」や販売の可否を法律でどのように定義するのか。

利用者を無知だと考える企業と、企業を身勝手だと考える利用者。その間を埋めるのは、誰もが納得できる説明と、それを担保する法律だと私は考えています。
それが現れるのはいつになるのでしょうか。少なくとも、企業が一方的に推し進めるほどにその日が遠ざかる気がしているのですが。