公共の音声対話システムのためのケプストラム平均正規化

追立 真吾 (0451020)


人型ロボットや券売機など公共の音声対話システムには話者交替が頻繁に生じる. 話者の個人性による周波数特性の差異は認識性能に悪影響を与えることが知られている. さらに公共の音声対話システムでは実時間での応答が求められるので, 高速な話者適応技術が重要である. 話者,空間,収録機器等を簡便に一括して正規化する手法として, ケプストラム平均正規化(CMN)が広く用いられている. 公共の音声認識システムでは,空間や収録機器の特性が急激な変化をすることは少ないので, CMNは主に話者正規化の効果を果たす.

しかしながら, CMNは一般に発話単位でケプストラム平均値を算出するため, 発話の入力開始と同時に認識処理を開始できない. そのため公共の音声認識システムでは必須である実時間処理が困難である. また,公共の音声認識システムは発話が短時間である傾向があるが, そのような場合,CMNは音韻の偏りの影響により性能が劣化してしまうという問題点がある.

そこで,本研究では, 発話終了時に認識処理を開始するオフライン処理と 発話開始と同時に認識処理を開始するオンライン処理のそれぞれで, 従来のCMNの認識性能向上を目指す. オフラインにおいては,認識処理を2段階に分け, 前段認識結果を用いて, 入力発話が音響モデルに対して最尤になるようni 音声/非音声用のケプストラム平均を別々に推定する手法を提案する. この手法は短時間発話に頑健であり, かつ正確に話者の個人性を推定する手法を提案する. オンラインにおいては, 認識処理中に母音区間を検出し,母音ケプストラムを入力情報として, コードブックにより発話者に近い話者の発話を発話データベースから選択し, 近似的に長時間CMをフレーム同期で求める手法を提案する.

音声対話情報案内システム「たけまるくん」により収集した実環境データを用いた実験により, 公共の音声認識システムにおけるオンライン/オフラインCMNの効果を明らかにする. オフライン実験の結果より,短時間発話において, 1発話単位での一般的なケプストラム平均正規化での認識性能よりも, 提案手法が約0.5\%の性能向上がみられた. オンライン実験の結果より,提案法は実時間処理であるが,発話単位でCMを算出するCMNに匹敵する性能を示した. また,代表的な従来の実時間処理CMNと比較しても,提案法が優位であることがわかった.