川原 尚己

近年，大量の個人データがビッグデータとして収集され，様々な用途のためにその解析結果が利用されている.数多く存在するデータの活用の方法の一つとして，データセット中に存在するアイテムセットに対し，その出現頻度が大きいものと対応する頻度を求めるというものがある.ただし，このようなデータには個人のプライバシーが含まれていることが多いため，データを収集・活用する上で必要となるのがプライバシー保護である.その手段の一つとして「差分プライバシー」が挙げられる.これは，収集・解析したデータにノイズを加えることで個人のプライバシーを保護しようとする技術である.一般に，差分プライバシーメカニズムはプライバシー保護とデータの有用性はトレードオフの関係がある.先ほどの頻度の推定という活用手法に対応する差分プライバシーメカニズムも提案されているが，これも高いプライバシー保護強度を求める場合には有用性に関して問題を抱えている.一方で，出力する統計量ではなく，データ自身にノイズを加えるとともに，匿名化前のデータ分布を匿名化後も保持するというような操作を行うことでプライバシー保護強度が高くとも有用性を保つことを可能とし，様々な解析に適用できうるというような特徴を持つ DIP 法という差分プライバシーメカニズムが提案されている.本研究では DIP 法に着目し，プライバシーを保護しつつ，頻度推定の有用性を劣化させない手法について提案する.