HMMを用いた自動読唇における時空間分解能および画像特徴量の検討

加藤 秀和 (0150132)


機械に口唇の動きから発話内容を理解させる自動読唇は,音声と同様に新たなコミュニケーションの一手段として注目され,現在様々な研究機関で研究が進められている.しかし,未だ性能が不十分でさらなる認識性能の改善が望まれている.

本研究では,自動読唇の高精度化を目指し,現在の自動読唇システムの問題点を時空間分解能や特徴量抽出の観点から検討する.

時間分解能について,高速度カメラで撮影した口唇動画像を用いて様々な分析フレーム間隔における認識性能を調査した結果,分析フレーム間隔を通常よりも短くすることで,認識性能をある程度改善できることが示されたが,105単語タスクの単語認識で認識率は83.0%から83.5%への改善に留まり,高時間分解能化による効果は小さかった.また,動的特徴量を推定する時間窓は,分析フレーム間隔に依らず60msec程度が適切であった.

空間分解能,すなわち画像解像度については,イメージ・ベースの特徴量を用いる場合,高解像化による効果は見られなかった. これは,従来のイメージ・ベースの特徴量は口唇領域全体から抽出されるため,口唇形状と口内の情報が混在しており,認識に有効な情報を効率よくモデル化できないためだと考えられる.

これに対し,口唇形状を除いた口内領域画像のみのイメージ・ベース法による特徴量を用いることで,105単語タスクの単語認識で77.7%から85.4%へ認識率が向上した.さらに,口内の情報についてはイメージ・ベース法,口唇形状の情報についてはモデル・ベース法の特徴量を併用することで認識率はさらに3.1%向上し,両手法を併用することの有効性が示された.