頭部動作認識のための自然会話映像データセットの構築と評価
秋山 解 (1551001)
本研究は,会話中に表れる頭部動作を映像から自動的に認識し,人間のコミュニケーションを理解する手がかりとして活用できるようにすることを目指す.
そのために,自然会話映像を撮影し,従来の頭部動作認識で扱われてきたものより多種類である10クラスの頭部動作をアノテーションしたデータセットを構築した.
複数名によるアノテーションを分析し,人による頭部動作の認識の曖昧さを確認した.
会話における頭部動作の統計を分析した結果,クラスごとの頭部動作の発生頻度に大きな偏りが確認され,稀にしか観測されない頭部動作も確認された.
また,構築されたデータセットに基づき,映像から推定した頭部位置姿勢から頭部動作の検出および識別を試み,複数のアルゴリズムで比較した.
その結果から,自然会話における頭部動作から多種類の頭部動作を認識する問題は困難であると結論付けられた.
頭部動作の定義の曖昧さ,個人間分散,サンプル数の不足,頭部位置姿勢推定の精度に関する課題を指摘した.