音声情報案内システムにおけるデータベース拡張コスト削減

平井 良佑 (1051087)


近年,音声認識技術の発達により音声を入力としたデータベース検索サービスが展開されている.我々が開発・運用を行っている音声情報案内システム「たけまるくん」 は質問文例と応答文のペアから構成される質問応答データベース(以下 QADB と呼ぶ)を用いた実環境システムである.2002年11月から奈良県生駒市北コミュニティーセンターにて運用されており,実環境下でのユーザ発話を収集している.

QADB を用いたシステムでは開発者があらかじめユーザの質問を想定しその質問に対する応答のペアから構成されるデータベースを作成する.質問文と応答文のペアを追加するだけでコンテンツが拡張できる利点がある一方で,このようなシステムを実環境で運用する場合,開発者が想定しないユーザ発話が行われるケースも存在する.このような発話に対してシステムがユーザの要求に沿った応答を行えるようにするには,実際にシステムに入力された発話を質問文例として追加する事が有効である.

この方法を用いた更新作業として,我々は収集した発話データを全て聴取し書き起こしを行い,システムが応答をすべき発話を選別しその書き起こしデータを QADB に追加・応答付与を行っていた.しかし,収集されたデータの過半数は雑音データやたけまるくんのタスク外の発話,既存の QADB に存在している発話など QADB に追加する必要のない発話データであり,本来は書き起こす必要の無いデータまで書き起こさなければならないため,とてもコストがかかる作業になっていた.

そこで本稿では,全データを追加した際と同様の応答精度の向上率を維持しつつ,QADB 更新に必要なデータを 音声 GMM 尤度,発話長,音声認識結果より算出した類似スコアを用いて自動的に検出する事で書き起こし・応答付与を行うデータ数を削減する手法を提案する.また,先行研究に基づく予備実験からデータベースに追加する学習データとして,人手で聴取し,書き起こした文と音声認識エンジンによる音声認識結果の2種類のうち,QADB の拡張用データとして効果的なデータの形式についても調査した.

「たけまるくん」 より収集された 10 ヶ月分の大人音声と雑音入力を学習データとして用いた実験では,全データを書き起こす従来法では応答正解率が 77.4% から 78.9% に向上した.このとき人手による書き起こしが必要なデータ量が 133,590 個であったのに対し,提案法では書き起こしを行うデータ量を約 70% 削減しつつ, 78.7% の応答正解率を得ることができた.