クラスタリングを利用した深層学習による日本語複合辞の検出

久保 大輝 (1651046)


複数の語がひとかたまりとなって1つの文法的な機能を有する表現を複合辞といい,日本語で複合辞の候補となる表現には「について」や「をはじめ」などがある.
例えば,以下の文1と文2には「について」という同一表記の表現が現れているが,文1では「に/つい/て」の「つい」が,動詞「つく」という内容的な働き(内容的用法)をしており,文2では「について」が1つの表現として格助詞のような文法的な働き(機能的用法)をしている.

1.海苔が歯についている(内容的用法)
2.研究について話す(機能的用法)

このような,字面上では同一であるが機能的な用法である場合と内容的な用法である場合を識別することを"複合辞の検出"といい,情報検索や含意関係認識などの日本語文の構造を理解する必要がある自然言語処理のタスクにおいて非常に重要である.
そこで,本研究では日本語文から複合辞を検出するタスクに取り組む.

これまでの複合辞を検出する研究は,形態素解析結果を利用して複合辞を検出する手法が主流となっており,人手で作成した検出規則を用いた手法や代表・派生関係を用いた手法などがあるが,その中で土屋らの教師あり機械学習を用いた手法[7]が最も高い精度を出している.

複合辞は「格助詞型(について)」や「接続詞型(ところが)」,「助動詞型(なければならない)」など,表現が持つ機能ごとに分類することができる.
そのため,複合辞の種類ごとに検出の学習を行うことが合理的であるが,土屋らの手法は全ての複合辞を分類することなく解析している.

そこで,本論文では,複合辞の教師なしクラスタリングを行い,格助詞型や助動詞型などの,複合辞の種類に応じた検出モデルの学習を実行する.また,様々な自然言語処理のタスクで高い精度を出しているニューラルネットワークを用いた手法を提案する.
その結果,先行研究のSVMを用いた手法を上回る精度を達成することを確認した.