Webリソースを用いた音声認識用言語モデルの自動作成

西村 竜一 (9951088)


現在の大語彙連続音声認識では,言語モデルと音響モデルの2つの統計モデルを使用して認識が行なわれる. これらのモデルは学習用データから統計的に学習することによって構築される. このため,モデルを作成する際には,大規模データベースの整備が必須となる. 従来,言語モデルの作成のための学習用テキストとしては,新聞記事テキストコーパスが用いることが多かった. また,研究機関や企業によって大規模なテキストデータベースの整備は進められている. しかし,その整備のための収集及び整形作業には多大な人手を必要とするため, 特定のタスクごとに適した言語モデルをユーザに提供することは現実的ではない. また,ユーザの使用する語彙は変化し,新しい語彙は未知語になってしまうため,言語モデルの更新作業が必要である.

そこで,ユーザ自身が使用するタスクに応じた言語モデルを容易に自動作成できるようなシステムの開発が求められる. 本研究では,このシステムの開発を目指して,World Wide Webのリソースを用いた音声認識用言語モデルの自動作成について検討を行なった. インターネット上には,様々なトピックに関して記述された無数のWebページが存在する. 本手法では,これらの中から作成する言語モデルのタスクに関連するものを, タスクを連想するキーワードを入力して得られるWeb検索サービスの検索結果から収集する. そして収集テキストから言語モデルを構築することにより,タスクに適した言語モデルをユーザが簡単に作成することを可能にする. さらに,すべての作業を自動化することにより,言語モデルの更新を簡単化することができた. Webページを学習用テキストに利用することにより,ある程度の話し言葉の音声認識に対応できることも特徴である.

また,本研究では,テキスト収集の際の大量のWebページの記述の多様性に対応する日本語文章抽出のための統計的テキスト整形フィルタの開発も行なった. 本フィルタは,新聞記事など日本語の基準となるテキストから作成した基準言語モデルを用いて,文字パープレキシティを評価尺度として,入力テキストの日本語文章らしさを判別することによりフィルタとして有効に動作する.

実験では,実際に「医療」を検索キーワードとして,関連Webページの収集を行ない,健康相談タスク向けの言語モデルを作成した. そして,大語彙連続音声認識による評価実験の結果,提案手法による言語モデルは,新聞記事によるモデルに比べて単語認識率で約10%の向上を得ることができ,その有効性が確認できた.