非構造化テキストデータの匿名化手法

前田若菜 (1551100)


個人情報保護法改正により,特定個人を識別できないようにする匿名加工を行えば,本人の同意を得ずとも個人情報を含むデータの第三者提供が可能になった. 個人を識別できる識別情報として,単体で個人識別可能な識別子と,組み合わせることで個人識別可能な準識別子がある. データ分析などの用途でテキストデータを第三者へ提供するような場合,テキスト中の識別情報を匿名加工する必要がある. しかし,テキストのどこに識別情報が存在するかは事前にはわからない. そのため,従来では テキストから識別情報を検出及び処理するde-idetificationアプローチと,テキスト間の識別性を低めるテキストの非識別化アプローチがなされていた. 一方で,従来準識別子とみなされていた生年月日や性別などの個人の基本情報以外に, 分析に利用したい情報の中にも準識別子と同様の働きをする拡大準識別子があると指摘されている. 拡大準識別子の性質の一つに特異性があり,ユニークな情報が拡大準識別子になりうる. テキストデータにおいても識別情報だけでなく,拡大準識別子も匿名加工の対象とする必要がある. しかし,拡大準識別子をテキストデータにおいて匿名化する場合、何をどの程度まで隠ぺいすればよいのかということは明らかではなかった。 そこで本研究では,まずk-anonymityに着想を得た文字n-gramフレーズの匿名化を提案した. これにより、ユニークなn-gramフレーズを隠蔽することができる。 一方で、単語を考慮していないため、一部においては匿名化文字列が復元されるという問題があった。 本研究ではさらに,固有名詞が復元されてしまう要因の一つであった復元候補の単一性に対し, l-diversityに着想を得た匿名化手法を提案した. 実験により,固有表現に関して匿名化文字列が復元されるリスクを低減できることが確認された。