そこで本発表では,ユーザの意図に着目した映像要約を提案する. 提案手法ではユーザが表現したい内容を記述したビデオブログのテキストを用い,そのテキストの内容に合った箇所を選択することで,ユーザの意図を反映した要約映像を生成する. 提案手法はテキストと映像をそれぞれオブジェクトの集合として考える. テキストについては名詞を,映像については画面に写った人やものをオブジェクトして用いる. このとき,映像のオブジェクト表現を得るために,映像中のオブジェクトをアノテーションとして付与することが必要となる. そこで本研究ではまず,映像のアノテーション付与のためのインターフェースを提案する. 提案手法ではオブジェクト表現を用いてテキストと類似する映像群を選択し,要約映像を生成する. 具体的には,テキストと映像のオブジェクト表現の類似度を定義し,この類似度に基づく目的関数の最適化として,映像要約を定式化する. 加えて,テキストと映像の類似度だけでなく,クラスタリングに基づく映像の優先度を目的関数に導入することで,よりテキストの内容に合った映像の選択を試みる.
本研究では提案手法を評価するためにユーザスタディを実施した. ユーザスタディでは要約映像をビデオブログに使用することを想定し,種々のベースライン手法と比較した. このユーザスタディでは主に次の2点について調査した. 1. ビデオブログ用動画の作成支援として提案手法が有効であるか 2. テキストに沿った内容の要約映像が実現できているか この結果から,提案手法がビデオブログのための映像編集に有効であることを示すとともに,新たに得られた要約映像の要件に関する知見について発表する.