Bag-of-Words を特徴量としたSVMによるタスク外発話および無効入力の識別

藤田洋子 (0851103)


音声認識を用いてユーザの要求した情報を提供する音声情報案内システムにおいて,システムが応答できない入力が課題の1つとなっている.システムに対する入力音の内,雑音やユーザ同士の背景会話などはシステムの誤認識・誤作動の原因となるため,応答対象外の入力(無効入力)として棄却し,システムが応答すべき入力(有効入力)に対してのみ応答処理が行われるべきである.しかし,ユーザの要求している情報をシステムが知識として有していない場合,その発話は有効入力であっても,応答できない.このような,システムが内容的に応答できない有効入力をタスク外発話,応答できる有効入力をタスク内発話と呼ぶ.そこで,本研究ではこれらの無効入力,タスク外発話を識別し,それぞれの入力に応じた処理を行わせることにより,システムの応答性能を向上させることを目的とする.

 本研究ではユーザの需要に応じた質問への応答性能を向上させることを目的として,まずタスク外発話の解析を行った.その結果,タスク外発話には,流行語や固有名詞などの情報が多く含まれていたことが分かった.そこでタスク外発話に対して,音声Web検索(Voice Search)などによる応答手法を視野に入れ,Bag-of-Words (BOW) を特徴量としたSupport Vector Machine (SVM) によるタスク外発話の識別手法を提案する.我々が開発・運用を行っている音声情報案内システム「たけまるくん」のデータを用いた実験では,従来のデータベース検索によるタスク外発話識別手法よりも等誤り率を大人データで21.28% から12.96% ,子供データで31.79% から25.81% に改善することができた.

 さらに,システムの誤作動を避けることを目的として,提案手法を用いて有効入力と無効入力の識別にも取り組んだ.BOWの言語的な特徴量を使用することにより,システムが行うタスクの言語的特徴を反映させた上で無効入力を識別することが可能になると考え,これを検証した.その結果,BOWを用いた無効入力の識別は,従来手法であるGMMによる音響尤度を用いた識別手法よりも識別精度が高く,分類誤り率を23.30% から13.89% に減少させることができた.