相補的バックオフを用いた言語モデル融合ツールの構築

長友 健太郎 (9951081)


音声認識技術はアプリケーションを強く意識すべき段階に突入している。音声認識アプリケーションの構築という視点から見た場合、アプリケーション構築者が意識しなければならないのは、そのアプリケーションがどのような入力を認識すべきであるかであり、これを決定づけるのが言語モデルと呼ばれる構成要素である。

音声認識に広く用いられるN-gram言語モデルは、学習元のコーパスの話題や知識に依存する。これは話題が属すタスクへの依存性や、発話様式(ですます、である、あるいはくだけた表現など)への依存性である。アプリケーション構築者は、アプリケーションが想定するタスクや発話様式に応じたモデルを用意する必要がある。

ところが一般に、アプリケーション構築者が望むようなタスクや発話様式に依存したモデルは存在しない。そこで彼または彼女がまず最初に行なうべきことは、そのようなモデルの元となる学習コーパスの収集ということになる。そして、この作業は困難であることが多い。仮に望みのコーパスが得られたとしても、そこから精度の良いモデルを構築するには専門的な知識と職人的な技術が必要である。

そこで、既存のモデルを利用することが重要となる。タスク依存性や発話様式の問題は、さまざまなタスクや発話様式に依存する複数の言語モデルを融合させることで対処する。

従来の融合処理は、融合の際に学習コーパスを必要としたが、これではエンドユーザに学習コーパスを配布しなければ融合処理が行なえない。言語モデルから直接融合を行なうことができれば、エンドユーザにコーパスを配布する必要がなくなり、また使用時に個人履歴モデルを融合することで話者適応させることも可能である。

本研究では、学習コーパスを用いず言語モデルを直接融合するツールを構築した。しかし一次情報源であるコーパスからの融合に比べ、二次情報源である言語モデルからの融合では精度が劣化する。これは各言語モデルのN-gramエントリの不整合を考慮していないためである。そこで本研究では、不整合の原因となる未観測N-gramの出現確率を相補的に推定するアルゴリズムを考案し、これを実装した。我々はこのアルゴリズムを相補的バックオフと名付けた。

高齢者向け医療相談及びグルメ&レシピ検索の二つのタスクのコーパスを用意し、このツールを用いて両タスクごとに構築した言語モデルを融合させた。その結果、コーパス融合に迫る精度を持つ融合モデルを得ることができた。