あいづちは意味理解や統語解析を必要としない素朴な言語現象のひとつであるが、 従来の音声対話システムではまったく考慮されてこなかった。しかし、あいづち 挿入のタイミングが不適切であったり、あるいはあいづちをまったく打たないこ とで話者に不安や緊張を与えることが近年明らかになってきてお り、より人間に近いインターフェースを実現するにはあいづちの挿入メカニズム の解明は避けて通れない問題になってきている。そこで本論文はあいづちを挿入 するタイミングの推定メカニズムを提案する。
あいづち推定のメカニズムに求められるものは、既存の技術でも実現可能なこと である。そこで本論文では、統語や語彙といった発話内容の理解に立ち入らずに、 既存の技術で利用できるピッチ・パワーなどの低レベルの韻律情報だけで推定す るメカニズムを提案する。
韻律特徴とあいづちの関係に注目する研究は従来からあったが、いずれも人手に よるコーパスの分析に基づいてヒューリスティックスを作成しており、扱える特 徴が少ないこともあって十分な精度を実現出来なかった。そこで本研究では機械 的に抽出したなるべく多くの特徴を用い、決定木学習によってあいづち挿入のメ カニズムをモデル化する。このモデルの有効性を音声対話コーパスを用いたシミュ レーション実験により検証する。
まず音声対話コーパスの作成を行ない、2人1組とする男性被験者20名の5〜18分 の対面・自由対話を収録転記した。転記は100ms以上のポーズで区切られる発話 断片(SU)単位の言語的な発話および笑い、息継ぎなどの非言語行動、そしてこれ らの開始・終了時間と他の発話との重複時間を記録した。次にSUの発話行為タイ プを発話交換構造に基づいてラベリングを行い、あいづちを同定した。
次に、あいづちコンテクストの同定を行なった。あいづち は話者の要求によらない任意な応答であるため個人の癖や対話の状況による揺れ があり、コーパス中のあいづちだけではあいづちコンテクストを網羅できない。 そこで、収録した音声対話コーパス中の発話を被験者に聞かせて、あいづちを打 たせる心理実験を行ない、あいづちコンテクストの同定を行なった。
最後に、あいづちコンテクストの基本周波数およびパワーについてこれらのピー ク値、継続長、勾配などの特徴を抽出し、これらを学習データとして決定木学習 を行なった。その結果、コーパス上でのシミュレーション実験ではあるものの、 insideで84%, outsideでも75%というまずまずの精度での挿入箇所の推定を 実現した。