音声対話システムによるWeb検索のための言語モデル

三宅純平 (0751122)


近年,音声認識を用いたデータベース検索システムの研究に注目が集まっている. その例として,音声認識を用いたカーナビや携帯電話によるナビシステム・日英翻訳などの製品化が挙げられる. 我々が開発・運用を行なっている音声情報案内システム「たけまるくん」も質問応答データベースを 用いたデータベース検索システムの一種である. 応答選択では,ユーザ発話と予めユーザの質問を想定して作成した質問用例文とのマッチング処理による情報抽出を行なっている. しかしながら,用例ベースの音声対話システムは,タスクドメイン内の発話に対しては柔軟な応答を 返すことができるが,タスクドメイン外の入力に対しては,適した応答をすることが全く出来ないという問題がある. そのため,用例ベースを中心に汎用性のある対話システムをいかに構築するかが課題となっている. そこで,タスクドメイン外の発話に対しては,Web検索による結果表示を利用することによって, 汎用性のある音声対話システムを目指している.

本研究では,Web検索発話に注目し,音声対話システムによるWeb検索での音声認識率の改善を目的とする. Web検索での音声認識は非常に幅広い内容の発話が想定されるため, Web資源などを利用した大規模コーパス構築による対応が必要である. しかしながら,Web検索発話の分析を行なったところ,大規模コーパス構築だけではなく, ユーザが利用する土地の観光情報など地域情報への対応が必要であるという知見を得た. そこで,Web検索モデルとして,Webから収集した集合知やランキングデータを用いた 大規模キーワードコーパスから言語モデル構築を行ない,地域情報を多く含むたけまる言語モデルと融合することを提案した. これにより,Web検索発話において大幅な認識率の改善を得た.

また,学習コーパス外の単語列に対する音声認識率向上を目的として, 大規模N-gramデータである``Google N-gram''を教師とした言語モデルの未観測N-gramの拡張を提案した. さらに,流行キーワードなどの読み付与誤りの解決として, 括弧表現に基づくWebテキストマイニングによる読み自動獲得及び読み訂正を提案した.

提案手法はそれぞれの音声認識率の改善に有効であったが, 全ての手法を適用することで,子供,大人,学生のWeb検索発話において著しい認識率の改善が得られた.