エントレインメント現象を利用した音声認識のための発話様式誘導

杉山 昂太郎 (1251055)


音声対話システムにおいて,前段の処理である音声認識の結果は後段の処理に影響を与えるため,高精度な音声認識処理の実現は本質的に重要である. 従来,音声認識のモデル構築に使用される大規模コーパスは形式的な独話である場合が多く,我々人間が日常的に使用している自由で柔軟な発話様式とは異なる. そのため,利用者がシステム設計者の意図しない発話様式を入力する場合,音声認識失敗のリスクとなり得る.

本研究ではこの問題に対して,システムが利用者に働きかけるという観点から,エントレインメント現象を用いて利用者から音声認識に適した発話様式を引き出し,発話様式を誘導する手法を提案する. エントレインメント現象とは,インタラクションを通して互いの性質が同調する現象のことである. 本発表では,第一に,日本語音声における音響特徴量のエントレインメント現象の有無を明らかにする. そして,エントレインメント現象を利用して対話相手の発話を高い音声認識率を持つ発話様式に誘導する,発話様式誘導の実現可能性について報告する.