未知語に対する自動読み付与では,文字などの小さい単位で表記と読みをアライメントした辞書データが必要となる.このデータを人手で構築するにはコストが掛かるため,表記と読みの自動アライメントが研究されている.これらの研究ではEM アルゴリズム(EM algorithm)を用いた教師なしアライメントが用いられる.従来手法では,パラメータの学習時において各アライメントに含まれる表記と読みのパターン数の違いを考慮していなかったため,分割数が小さい大きい単位のアライメントが有利になる傾向があった.大きい単位でアライメントが行われると未知語の自動読み付与に対する頑健性が失われるという問題がある.この問題に対して,アライメントの文字数に制約を入れるという対策が行われているが,これは,言語依存である.また,漢字などの表意文字においては,いわゆる熟字訓の場合には大きい単位のアライメントも許す必要があるため,依然として大きい単位でアライメントが行われている.
そこで,本発表では,まず従来手法について定式化を行い,問題点について詳細に説明する.次にこの問題点に対して,パラメータの学習時において各アライメントのパターン数の違いを調整するためのスケーリング値を導入することを提案する.スケーリング値の導入により,パターン数の違いを解消し,大きい単位によるアライメントの優位さが無効になる.この提案手法を評価するために行った未知語に対する自動読み付与の実験結果を示し,提案手法はアライメントの文字数に制約を与えなくても,従来手法よりも有効であることを示す.