完全準同型暗号を用いたデータマイニングとその問題点

PDF リリース全文
(763KB)

2016年1月14日

暗号化したままデータを分類できるビッグデータ向け解析技術を開発

2016年1月14日

国立研究開発法人情報通信研究機構(NICT)

暗号化したままデータを分類できるビッグデータ向け解析技術を開発

【ポイント】
■ ビッグデータ解析で多用されているロジスティック回帰分析をデータ暗号化のまま計算可能に
■ 暗号化された1億件のデータを30分以内で複数グループに分類できることをシミュレーションで確認
■ ビッグデータ解析におけるプライバシー保護への応用に期待

 国立研究開発法人情報通信研究機構(NICT、理事長: 坂内 正夫) セキュリティ基盤研究室は、大量のデータを暗号化したまま複数のグループに分類できるビッグデータ向け解析技術を開発しました。
 本技術は、NICTが開発していた準同型暗号技術SPHERE(スフィア)とロジスティック回帰分析技術を組み合わせることで実現したものです。暗号化した状態でデータを分類できるので、個人情報などの機微な情報を安全に効率よく分類することが可能になります。応用例の一つとして、本技術を用いて健康診断等のデータから病気の判定を行う際に、データ処理を行う第三者にデータの内容を開示せずに済み、プライバシーを保護できるようになると期待されます。

【背景】 
 現在、データマイニング技術の進展により、ビッグデータの中から価値のある情報を計算により引き出し、それを利活用する高機能なサービスが提供されています。例えば、商品販売サービスにおいてロジスティック回帰分析を用いることで、ユーザーの年齢・性別・購入履歴などから、新たなキャンペーンの案内を送るか否かを決定し、無駄な案内の送付を省く技術が実用化されています。
 一方で、データに含まれるプライバシー情報がクラウドサーバ管理者に漏えいするという懸念から、このようなサービスの実施を否定する動きもあります。プライバシー情報を保護するため、データをあらかじめ完全準同型暗号技術を用いて暗号化しておき、暗号化したままデータマイニングの計算を行い、最後に結果を復元する手法が理論的には可能ですが、それには膨大な時間を要するため、現実的な時間で大量のデータを処理することは困難でした。
 この問題を解決するため、NICTはこれまで、暗号化した状態でデータのセキュリティレベルの更新と演算の両方が可能な準同型暗号技術SPHEREを開発し、ビッグデータ解析におけるプライバシー保護技術の発展に貢献してきました。

【今回の成果】
 今回NICTは、データを暗号化した状態でロジスティック回帰分析を高速に行う手法を世界で初めて開発しました。この技術により、大量のデータを暗号化したまま複数のグループに分類することが可能になります。
 高速化の要となる技術は、関数の近似とデータ処理の分割の2点です。
 我々はまず、ロジスティック回帰分析中に含まれる複雑な関数を単純な多項式で近似し、準同型暗号と組み合わせることで、現実的な時間で動作する方式を考案しました。
 次に、ロジスティック回帰分析に含まれる計算をデータ加工処理と集計処理の2つの部分に分割し、データ加工をあらかじめデータ提供者側で行うことで高速化を推し進めました。
 これら2点の改良と、NICT開発の準同型暗号SPHEREを組み合わせることで、大量のデータを暗号化したままでロジスティック回帰分析を行うことが可能になりました。シミュレーションによって、サーバ上で1億件のデータを30分以内で分析可能であることが確認できました。
 また、UCI機械学習リポジトリにて公開されている実験用データを用い、今回開発した技術により、データを暗号化したままロジスティック回帰分析を行った結果と、SPHEREを用いずに分析した結果がほぼ一致することを確認しました。
 本技術を用いることで、クラウドサーバ等を用いてデータの分類を行う際、データに含まれるプライバシー情報がサーバ管理者に漏えいすることを防ぐことができます。

【今後の展望】
 今回開発した技術により、例えば、医療分野において、世界中の被験者から収集したデータを、プライバシーを保護したまま解析することが可能になります。これにより、新たな診断方法や治療法の早期かつ効率的な発見に繋がることが期待されます。
 本成果は、平成28年1月19日(火)~ 22日(金)に熊本県熊本市で開催される「2016年暗号と情報セキュリティシンポジウム(SCIS2016)」(http://www.iwsec.org/scis/2016/)で発表します。