しかしながら, CMNは一般に発話単位でケプストラム平均値を算出するため, 発話の入力開始と同時に認識処理を開始できない. そのため公共の音声認識システムでは必須である実時間処理が困難である. また,公共の音声認識システムは発話が短時間である傾向があるが, そのような場合,CMNは音韻の偏りの影響により性能が劣化してしまうという問題点がある.
そこで,本研究では, 発話終了時に認識処理を開始するオフライン処理と 発話開始と同時に認識処理を開始するオンライン処理のそれぞれで, 従来のCMNの認識性能向上を目指す. オフラインにおいては,認識処理を2段階に分け, 前段認識結果を用いて, 入力発話が音響モデルに対して最尤になるようni 音声/非音声用のケプストラム平均を別々に推定する手法を提案する. この手法は短時間発話に頑健であり, かつ正確に話者の個人性を推定する手法を提案する. オンラインにおいては, 認識処理中に母音区間を検出し,母音ケプストラムを入力情報として, コードブックにより発話者に近い話者の発話を発話データベースから選択し, 近似的に長時間CMをフレーム同期で求める手法を提案する.
音声対話情報案内システム「たけまるくん」により収集した実環境データを用いた実験により, 公共の音声認識システムにおけるオンライン/オフラインCMNの効果を明らかにする. オフライン実験の結果より,短時間発話において, 1発話単位での一般的なケプストラム平均正規化での認識性能よりも, 提案手法が約0.5\%の性能向上がみられた. オンライン実験の結果より,提案法は実時間処理であるが,発話単位でCMを算出するCMNに匹敵する性能を示した. また,代表的な従来の実時間処理CMNと比較しても,提案法が優位であることがわかった.