テキスト平易化コーパス構築のための文の分割を考慮した文間類似度計算法

永井 優城 (1551065)


テキスト平易化は難しい文を同じ意味のより平易な文に変換するタスクである. 近年, 多くの研究がテキスト平易化を統計的機械翻訳の枠組みに基づいて行っている. 統計的機械翻訳に基づいてテキスト平易化を行うには単言語のパラレルコーパスが必要となるが, 異言語間の翻訳と異なり, 人手で作られた文レベルでアライメントが取れた大規模なコーパスは存在しない. そこで多くの研究がEnglish Wikipedia, Simple English Wikipediaから機械的に文アライメントを作りコーパスを作成している. テキスト平易化は難しい語の書き換え, 難しい語の削除, 単語の並び替え, 長い文の分割といった4つの操作からなるが, 長い文の分割を考慮して文アライメントをつける研究は少ない. そこで本研究では文分割を考慮した文間類似度計算法を提案し, 実験により文アライメントの精度の向上を確認した.