プライバシを保護したビッグデータ解析
PDDIシステムとは
急速にデジタル化が進む現在、企業も個人もサイバー攻撃や情報漏洩の脅威を認識し、セキュリティ技術に高い関心が寄せられています。しかし、従来のセキュリティ技術で実現することはリスク回避にとどまりませんでした。
一般的に"守る"側面が注目されるセキュリティ技術ですが、大阪大学・宮地研究室では、セキュリティ技術の創造性に着目し、情報漏洩を懸念することなく、複数機関が所有するデータ統合を実現する Privacy-preserving Distributed Data Integration(PDDI)システムを構築しました。
PDDIにより次のことが実現できます。
- プライバシを保護しつつ、Small dataをBig dataに変換。
- 各機関の希少データを統合することで、プライバシを保護した精度の高い解析。
- 各機関の持つ異なる属性を統合することで、プライバシを保護した多角的な解析。
PDDIシステムには次の特徴があります。
高汎用性 | データ数・機関数に非依存。対象機関・突合項目・出力項目を自由に設定可能。 |
---|---|
高機密性 | 各機関が許可したデータのみが許可された機関でのみ閲覧可能。 |
高速性 | PDDI計算機によりデータ秘匿性を保持しながら処理速度を向上。 |
導入容易性 | データを預託機関に預託する必要がありません。 |
システムモデル
PDDIシステムの構造・各役割は次の通りです。
データ保有機関 | 提供するデータの利用許可属性の設定を行うことができます。 |
---|---|
PDDI計算機 | 機関数依存の計算処理を代行します。データを知ることはありません。 |
クライアント | 突合した解析属性を入手できます(データ保有機関の兼用可能)。 情報は分散管理されていて、各機関から他機関へは送付されません。 |
突合属性 | 突合子として使う属性。 |
解析属性 | 突合後にクライアントへ送付する属性。 |
PDDIシステム デモンストレーション
大学では様々な活動データが独立に蓄積されています。生協での食生活データ、健康管理センターの健康データ、スポーツジムでの運動データ、個人が持つ学業成績、これらの情報をプライバシを保護したまま統合することで、それぞれの活動が成績や健康などにどのように影響を与えるのか解析することが可能です。
システム動作と特徴
PDDIシステムは、次の図のように動作し、以下の特徴があります。
PDDI計算機 | 暗号化不可逆データのみを入手。突合データは機関の外部に対して完全に秘匿。 |
---|---|
クライアント | 各機関が公開を許可した属性のみを入手。それ以外の情報は入手不可能。 |
通信経路 | すべての通信経路が暗号化されるため、許可された機関以外は全データが入手不可能。 |
2つの導入モデル
PDDIシステムは非可逆圧縮したデータの暗号化により突合を行い、統合データを暗号化して利用者に送信することで、各機関が独立してデータを保管しながら、データ突合を行います。本システムでは、突合データは各機関から外部に出ません。統合データは必要な機関を除く全外部に対して秘匿されます。
PDDIシステムには、2つの導入モデルがあり、どちらのモデルにおいても突合データ及び統合データは完全に秘匿されます。
サーバ不要モデル | PDDI計算機の構築は不要で阪大宮地研のクラウドを利用します。 |
---|---|
サーバ構築モデル | グループ毎にPDDI計算機を構築します。 |
他のシステムとの違い
PDDIシステム
- プライバシ情報は突合機関に収集されない。突合は各機関で実施。
- プライバシ情報等が統合機関に流出しない。
一般的な顧客管理システム
- プライバシ情報を含む全データが突合機関に収集される。突合は突合機関で実施。
(必要な解析対象がプライバシ情報でなくても、突合にプライバシ情報を含めて収集) - プライバシ情報が突合機関に流出。
パフォーマンス
Amazon EC2 の CPU 2.4 GHz / 1 GB Memoryのスペックでのパフォーマンスの計測結果です。
- 2, 3, 4機関にそれぞれ10,000要素の突合の実行時間は約282.8, 273.6, 272.5秒。
- 機関の計算量 実行時間は要素数𝜔に比例し、機関数𝑛に依存しない。
- PDDI計算機が計算量が多い処理を行うため、各機関は低スペックPCで運用が可能。
- データを固定値に圧縮するので、データサイズに突合時の通信量が依存しない。
計算量の比較
KS07 | PDDI |
---|---|
𝑂(𝑛𝜔2) | 機関: 𝑂(𝜔) PDDI計算機: 𝑂(𝑛𝜔) |
実測結果
要素数 | 時間秒 |
---|---|
100 | 10.0秒 |
1000 | 38.9秒 |
10000 | 282.8秒 |
100000 | 2486.8秒 |
1000000 | 25075.0秒 |
機関数=2, 偽陽性率=0.65%
機関数と実行時間の関係
要素数は 10,000 データ
耐通信障害性
現実の運用では、通信障害は頻繁に起こります。例えば、接続する一機関が通信遮断されることもあります。通信障害時にデッドロックが発生するようなシステムではシステムの継続が困難になります。そのような一部の機関の通信遮断の度に、データ統合ができることが安定したデータ統合システムには必要です。
PDDIでは、一部の機関の予期せぬ離脱を考慮したプロトコル設計をしています。これにより、パーティ離脱の検出と適切なリトライによるプロトコル進行が保証されます。また、非同期プログラミング手法のasync/awaitを用いた実装により、保守性の高い非同期プログラミングを実現します。
簡単インストール
暗号ソフトウェアは多倍長演算など、いくつものライブラリに依存して実装されることが多く、そのインストール及び環境構築に手間がかかります。そこで、PDDIはDockerとdocker-comoseを全面的に採用し、インストールと環境構築をdocker-composeコマンド1つで可能とします。こうすることで、Dockerの利用可能な環境であれば、即座にPDDIソフトウェアを実行することが出来るようになります。
適用事例
PDDIシステムをご活用頂いているお客様の事例やシステム構築例についてご紹介します。さまざまな企業・機関でのシステム利用例をご覧ください。
- 学校の事故事例の統合
- 機関横断的な医療データの統合
- 検診データの統合
- 電動車いすの事故情報の統合
- 同じ病気の治療法の統合
- ガンと脳卒中の関連性調査
- 研究機関と関連機関のデータ統合
- 学校の事故情報の統合
- ガン検診事例
- 歯型による本人特定事例
- 教育データの解析
- プライバシを保護した追跡機能
学校の事故事例の統合
小学校で児童がブランコでけがをした事例では、事故が起こった遊具に関するデータは学校、病院への救急搬送データは消防署、傷害・後遺症に関するデータは病院に管理されます。つまり、学校での生徒の事故に関する情報では、学校、消防署、病院がそれぞれ同じ事故で異なるデータを管理します。学校における事故の予防安全の実現には、事故の統計的因果モデルの作成が重要です。PDDIでは異なる機関に分散した関連データの統合を実現します。
機関横断的な医療データの統合
複数の医療機関に通院する患者の医療データは、それぞれの医療機関において独立に管理されていますが、同一患者のデータを統合することで異なる病気の相互作用などをより多角的に解析することが可能となります。PDDIシステムでは、それぞれの医療機関が独立に所有する医療データに対して、氏名・生年月日等のプライバシ情報を外部へ出さずに、同一患者のデータを統合することができます。
検診データの統合
個人の検診データを統合することで、幼少期の検査値が成人時の生活習慣病にどのように影響するかを解析することが可能です。これにより、生活習慣病などの保健指導を効果的に行なうことができます。
PDDIシステムでは、学校や企業で独立に保管された検診データから、プライバシを保護しつつ、同一人物の検診データを統合し、長期間の個人の検診データを構築できます。
電動車いすの事故情報の統合
業界全体で各メーカーの製品事故情報などを統合できると、未然に製品の欠陥理由が解析されて、安全な製品開発が促進されます。製品事故情報の統合は各メーカーのデータのプライバシを保護する必要があります。PDDIシステムでは各メーカーのプライバシを保護し、重篤な事故データの抽出と統合を実現します。
同じ病気の治療法の統合
特定の病名に対する治療歴を統合・解析し、効果的な治療法を研究する。同一突合属性における解析属性の連結を解除する。PDDIを利用することにより、病院名と氏名は秘匿される。
ガンと脳卒中の関連性調査
- 複数の医療機関に通院する患者の医療データは各医療機関で独立に管理。
- 同一患者のデータを統合し、異なる病気の相互作用をより多角的に解析。
個人情報を保護しながら複数施設間のデータ突合を行い、臨床研究においてバイアスの少ない解析を実施可能となる仕組みを提案。
阪大院内ガン登録患者:27,932名
近隣循環器病院の脳卒中患者:6,000名
- 氏名、性別、生年月日による突合 = 91%
- 1 + 住所による突合 = 91.6%
- IDによる突合 = 100%
研究機関と関連機関のデータ統合
- 研究機関 S と関連機関 Pi のデータ統合を各機関のデータを秘匿して行います。
(S∩C1)∪(S∩C2) ∪ (S∩C3) ・・・∪ (S∩Cn) - 研究機関にはどの関連機関のデータであるかを秘匿します。
- 複数の医療機関に通院する同一患者の医療データを統合し、異なる病気の相関関係をより多角的に解析します。
(例:ガン患者が他にどのような病気になりやすいかを調査する)
学校の事故情報の統合
- 研究機関 S と関連機関 Pi のデータ統合を各機関のデータを秘匿して行います.
(S∩C1)∪(S∩C2) ∪ (S∩C3) ・・・∪ (S∩Cn) - 各学校の事故情報などを統合できると、事故理由が解析されて、安全な製品運用や製品開発が促進されます。事故情報の統合は各学校のデータのプライバシを保護する必要があります。PDDIシステムでは各学校のプライバシを保護し、重篤な事故データの抽出と統合を実現します。
ガン検診事例
各市で行われるガン検診データは市役所で管理されます。一方、ガンの情報は癌センターで登録することが義務づけられています。ガン検診の有無が癌の重症化事例に影響を与えるかどうかを判断するにはガン検診のデータとガンのデータの突合が必要です。
PDDI では癌センターの情報と各市のもつガン検診データの情報の統合を実現します。
歯型による本人特定事例
災害時の個人の特定に歯型の利用は重要です。このとき生前に個人が受診した歯型のデータをプライバシーを保護しつつ、突合に利用できると、個人特定が可能になります。
PDDIシステムでは、歯形のプライバシ情報を外部へ出さずに、個人特定を実現します。
教育データの解析
学生の学習データはプライバシ情報で保護する必要があります。一方学習効果を計るには同じ学生の学習データを突合させて分析する必要があります。PDDIシステムでは、学生と学習データの対を秘匿しつつ、同じ学生の学習データのみを突合します。
プライバシを保護した追跡機能
各市で行われるPCR検査データは保健所で管理されます。各店舗のユーザ利用の情報は各店舗で登録されています。PCR検査で陽性になった後に、その陽性患者の濃厚接触者をプライバシを確保したまま追跡することが必要です。PDDI ではプライバシを保護し、保健所の情報と各機関のもつデータから濃厚接触者のみを抽出するシステムを実現します。