用例中の単語を重み付け和により利用した日本語述語項構造解析

芝原 隆善


日本語述語項構造解析において,ラベルなしコーパスから利用した述語の項選好性の利用が効果的であることが知られている.一方で,ラベルなしコーパスの情報を識別時に動的に用いている研究はAdversarial Learningを利用したものがあるが,ほとんどの研究が事前に解析された格情報の知識を利用するか,事前学習された単語ベクトルをFine-Tuningするかのいずれかである.前者の研究にはエラー蓄積の問題が,後者の研究には単語の多義性が取り扱いにくいという問題がある.

そこで本研究では識別時に動的に利用することで述語の項選好性の情報をより豊かに活用することを目的とし,ラベルなしコーパスの情報をAttention Mechanismベースの手法を用いて,識別時に動的に利用する.

そのために本研究では述語の項の予測時にラベルなしコーパスを(1)類似の用例から(2)それぞれの格らしい単語を重み付け和として利用することで,述語の項選好性の情報を利用する手法を提案する.

ベースラインと比較して,提案手法は概ね高い精度を示した.しかし,先行研究には及んでいない.またベースラインに対しての精度の向上はデータセット数が少ない場合で顕著であった.

提案手法は用例の利用による格の判断(提案部分)と,ベースラインモデルの格の判断を足し合わせることで実装を行っている. 実験的な状況証拠と,数式の形状に着目した推論から,提案部分が同じ格の単語を近づける役割を持つことを推測し,これを検証した. 結果として同じ格の単語の間の距離を変化させることはなかったが,その分散を小さくする結果になっていた. このことから,同じ格の単語の特徴量を近づけるような働きはあったが,それが実際に距離を小さくするには至っていないことを確認した.