NAIST-IS-MT9651203: Hiroaki Noguchi

韻律情報に基づいたあいづち挿入箇所の推定

野口広彰 (9651203)

音声対話システムと話す際、緊張して話しづらいと感じる人が多い。これは聞き手としての音声対話システムの応対が人のそれに比べていびつなことが原因で、そのひとつにあいづち応答の欠如が挙げられる。

あいづちは意味理解や統語解析を必要としない素朴な言語現象のひとつであるが、従来の音声対話システムではまったく考慮されてこなかった。しかし、あいづち挿入のタイミングが不適切であったり、あるいはあいづちをまったく打たないことで話者に不安や緊張を与えることが近年明らかになってきており、より人間に近いインターフェースを実現するにはあいづちの挿入メカニズムの解明は避けて通れない問題になってきている。そこで本論文はあいづちを挿入するタイミングの推定メカニズムを提案する。

あいづち推定のメカニズムに求められるものは、既存の技術でも実現可能なことである。そこで本論文では、統語や語彙といった発話内容の理解に立ち入らずに、既存の技術で利用できるピッチ・パワーなどの低レベルの韻律情報だけで推定するメカニズムを提案する。

韻律特徴とあいづちの関係に注目する研究は従来からあったが、いずれも人手によるコーパスの分析に基づいてヒューリスティックスを作成しており、扱える特徴が少ないこともあって十分な精度を実現出来なかった。そこで本研究では機械的に抽出したなるべく多くの特徴を用い、決定木学習によってあいづち挿入のメカニズムをモデル化する。このモデルの有効性を音声対話コーパスを用いたシミュレーション実験により検証する。

まず音声対話コーパスの作成を行ない、2人1組とする男性被験者20名の5～18分の対面・自由対話を収録転記した。転記は100ms以上のポーズで区切られる発話断片(SU)単位の言語的な発話および笑い、息継ぎなどの非言語行動、そしてこれらの開始・終了時間と他の発話との重複時間を記録した。次にSUの発話行為タイプを発話交換構造に基づいてラベリングを行い、あいづちを同定した。

次に、あいづちコンテクストの同定を行なった。あいづちは話者の要求によらない任意な応答であるため個人の癖や対話の状況による揺れがあり、コーパス中のあいづちだけではあいづちコンテクストを網羅できない。そこで、収録した音声対話コーパス中の発話を被験者に聞かせて、あいづちを打たせる心理実験を行ない、あいづちコンテクストの同定を行なった。

最後に、あいづちコンテクストの基本周波数およびパワーについてこれらのピーク値、継続長、勾配などの特徴を抽出し、これらを学習データとして決定木学習を行なった。その結果、コーパス上でのシミュレーション実験ではあるものの、 insideで84%, outsideでも75%というまずまずの精度での挿入箇所の推定を実現した。

韻律情報に基づいたあいづち挿入箇所の推定

野口 広彰 (9651203)

野口広彰 (9651203)