映像中や画像中の重要領域推定は,小さな画面に合わせて映像の一部を拡大して表示するビデオリターゲティングや映像のコンテンツに応じた圧縮など,広範な応用を持つ. 重要領域推定は盛んに研究されており,生物の視覚システムが持つ生物学的な特徴をモデル化した視覚的顕著モデルや,人間は人の顔に注目するという性質に基づいて顔検出を援用するモデルなどが提案されている. 顔検出を援用した重要領域推定は前述の応用において有用であると考えられる一方で,偶然通りかかった人物とその映像中において主要な人物を区別することができないという問題があった.
そこで本研究では,複数の人物を含むシーンにおいて,映像中の人物がその映像に必要な重要人物なのか,偶然映り込んだ非重要人物なのかを識別する手法を提案する. 一般に,映像中の人物が重要か,非重要かは視聴者によって異なり,一意に決定することはできない. そこで,本研究では,その映像の撮影者の観点から重要人物,非重要人物を区別する. 視聴者は撮影者の意図を汲み取ろうとすることから,多くの場合,撮影者,視聴者それぞれにとっての重要人物は一致するものと考えられる.
撮影者は重要人物を撮影する際に,その人物を映像フレーム中の中心付近に配置するように,撮影時のカメラの動かし方に一定の傾向があるものと考えられる. そこで,提案手法では,このようなカメラの動きが反映されると考えられる顔領域の大きさ,および軌跡を人物の動きの特徴量として用いる. 加えて,顔の向きなど見え方も重要人物の識別において有効であると考え,人物の見え方に関する特徴量として用いる. また,識別には条件付き確率場とディープニューラルネットワークを組み合わせたモデルを利用し,映像中の人物間の相関関係を考慮することで複数の人物を含むシーンでの識別精度の向上を試みる. 実験では,ウェブ上で収集したホームビデオを用いてネットワークを学習し,80%を超える精度で重要人物識別が可能であることを示した. また,提案モデルをサポートベクターマシンや条件付き確率場を用いないネットワークと比較することで提案モデルの有効性および条件付き確率場の効果を実験により検証した.
本発表では,提案手法の位置づけと手法の処理概要,従来手法との比較結果と結果に対する考察について報告する.