依存構造情報を利用した英語複単語表現のための効率的注釈法

駒井雅之 (1451047)


単語境界を横断し, 統語的・意味的に特異な語彙の要素を複単語表現 (Multiword Expressoins) と呼ぶ. 例えば"go over"という複単語表現は"go"と "over"の2語で"深く考える"という意味を成す. 自然言語処理において複単語 表現の理解は非常に重要である. しかし, 複単語表現が十分に注釈されたコー パスは極めて限られている. そこで本研究では, 我々は英語の複単語表現のた めの効率的な半自動注釈法を提案する. 手法は, 初めにWiktionary (自由に利 用可能なWeb上の辞書) を基に複単語の辞書を構築し, 特定のコーパスに出現し た事例が複単語表現か否かを注釈する. 効率な注釈のため我々は英語の依存構 造を利用し, 対象の表現が複単語表現か逐語的表現かを妥当に分別する. 結果, 注釈の際に生じるコストを劇的に削減する. 加えて, 我々は二値分類に基づく 複単語表現の判別法が, 規則に基づく手法や系列ラベリングに基づく手法の性 能を上回ることを示す.