そこで,ユーザ自身が使用するタスクに応じた言語モデルを容易に自動作成できるようなシステムの開発が求められる. 本研究では,このシステムの開発を目指して,World Wide Webのリソースを用いた音声認識用言語モデルの自動作成について検討を行なった. インターネット上には,様々なトピックに関して記述された無数のWebページが存在する. 本手法では,これらの中から作成する言語モデルのタスクに関連するものを, タスクを連想するキーワードを入力して得られるWeb検索サービスの検索結果から収集する. そして収集テキストから言語モデルを構築することにより,タスクに適した言語モデルをユーザが簡単に作成することを可能にする. さらに,すべての作業を自動化することにより,言語モデルの更新を簡単化することができた. Webページを学習用テキストに利用することにより,ある程度の話し言葉の音声認識に対応できることも特徴である.
また,本研究では,テキスト収集の際の大量のWebページの記述の多様性に対応する日本語文章抽出のための統計的テキスト整形フィルタの開発も行なった. 本フィルタは,新聞記事など日本語の基準となるテキストから作成した基準言語モデルを用いて,文字パープレキシティを評価尺度として,入力テキストの日本語文章らしさを判別することによりフィルタとして有効に動作する.
実験では,実際に「医療」を検索キーワードとして,関連Webページの収集を行ない,健康相談タスク向けの言語モデルを作成した. そして,大語彙連続音声認識による評価実験の結果,提案手法による言語モデルは,新聞記事によるモデルに比べて単語認識率で約10%の向上を得ることができ,その有効性が確認できた.