自動読み付与のための多対多最小パターンアライメントと未知語における評価

久保 慶伍 (0951041)


近年,音声検索や音声ドキュメント検索のような幅広いドメインを扱う音声認識の研究に注目が集まっている.これらのドメインでは新語などの未知語が出現しやすいため,未知語の対策が性能の改善に大きく貢献する.一方,Web の発展により,言語モデルのための言語資源を容易に集めることが可能になった.Web上には最新の情報や専門的な情報といった様々な情報が存在するため,Web から集めた言語資源には新語などの未知語が多く含まれていると考えられる.そのため,Web を用いた未知語対策には大きな期待が寄せられている.しかし,Web から得た言語資源には読みが付与されておらず,未知語に対する頑健な自動読み付与が重要な問題となっている.

未知語に対する自動読み付与では,文字などの小さい単位で表記と読みをアライメントした辞書データが必要となる.このデータを人手で構築するにはコストが掛かるため,表記と読みの自動アライメントが研究されている.これらの研究ではEM アルゴリズム(EM algorithm)を用いた教師なしアライメントが用いられる.従来手法では,パラメータの学習時において各アライメントに含まれる表記と読みのパターン数の違いを考慮していなかったため,分割数が小さい大きい単位のアライメントが有利になる傾向があった.大きい単位でアライメントが行われると未知語の自動読み付与に対する頑健性が失われるという問題がある.この問題に対して,アライメントの文字数に制約を入れるという対策が行われているが,これは,言語依存である.また,漢字などの表意文字においては,いわゆる熟字訓の場合には大きい単位のアライメントも許す必要があるため,依然として大きい単位でアライメントが行われている.

そこで,本発表では,まず従来手法について定式化を行い,問題点について詳細に説明する.次にこの問題点に対して,パラメータの学習時において各アライメントのパターン数の違いを調整するためのスケーリング値を導入することを提案する.スケーリング値の導入により,パターン数の違いを解消し,大きい単位によるアライメントの優位さが無効になる.この提案手法を評価するために行った未知語に対する自動読み付与の実験結果を示し,提案手法はアライメントの文字数に制約を与えなくても,従来手法よりも有効であることを示す.