近年,音声認識を用いたインターフェースの需要が高まっている.
その例として,音声認識を用いたカーナビや携帯電話によるナビシステムなどの製品化が挙げられる.
我々が開発・運用を行なっている音声情報案内システム「たけまるくん」も音声をインターフェースに用いたデータベース検索システムの一種である.
「たけまるくん」は雑音棄却部,音声認識部,応答選択部から構成され,入力された音声データはこの順に処理されていく.
しかしながら,応答誤りが発生する場合もまだ残されており,
その分析を行った所,音声認識部および応答選択部にて誤りがあるということがわかった.
そこで,音声認識部のエラー対策としてトピック別に構築した複数言語モデルにより認識する手法を,
応答選択部のエラー対策として認識した結果を QADB(Question and Answer DataBase) 内の質問例に
より近いものにリランキングする手法を検討する.
対話タスクにおける音声認識は非常に幅広い内容の発話が想定されるため,
単一言語モデルですべてを網羅することは現実的に不可能である.
したがって,タスク適応などによる制約が必要となる.
本研究では,トピック別に構築した言語モデルを並列に用いて音声認識を行うことで制約を与える.
トピック分類には,
「たけまるくん」のタスクドメインに基づいた人手による分類あるいは潜在的ディリクレ配分法
(Latent Dirichlet Allocation: LDA)およびk-means 法による教師無し分類の2 種類を行う.
その結果,前者の手法では大人発話において単語正解率約0.4%,単語正解精度約1.0%,
子供発話において単語正解率約1.3%,単語正解精度約 1.7%の向上が確認されたが,
この手法には人手であるがゆえの負担が残る.
一方,後者の手法では大人発話において単語正解率約1.7%,単語正解精度約2.4%,
子供発話において単語正解率約1.4%,単語正解精度約1.5%の向上が確認され,
前者の手法と同程度以上の分類および分類の負担の軽減を達成した.
次に,従来通りの尤度に従って順位付けされた認識結果では正解と出力されるべき認識結果が選ばれず,
誤った応答を返す.その対策として,尤度により順位づけされた認識結果に対して2つの手法によりリランキングを行う.
その結果,最大で大人発話で約2.9%,子供発話で約2.7%の応答正解率の向上が確認された.
最後に,以上の手法を音声認識部および応答選択部にそれぞれ適用した結果,
大人発話で単語正解率約2.9%,応答正解率約5.0%,子供発話で単語正解率約0.9%,
応答正解率約 2.7%の向上が確認された.