テキストを用いてユーザ意図を反映する映像要約

大谷 まゆ (1351018)


近年,スマートフォンや安価なビデオカメラの普及により,一般ユーザが大量に映像を撮影できるようになり,これらの映像をインターネットを通して公開することが一般的になった. その形態として映像とそれに付随するテキストを用いて,ユーザが日々の出来事や考えを表現するビデオブログがある. しかしながら,映像が大量に撮影された場合,撮影された雑多な映像の中からユーザの意図に合った映像を抽出し,編集することは手間を要する作業である. 映像編集にかかるこれらの労力を削減可能な技術の一つに映像要約がある. これは長時間に及ぶ大量の映像から短いダイジェスト映像や代表フレームを提示することで内容を容易に把握可能とすることを目的としている. 従来,様々な映像要約手法が研究されており,それらの多くは事前に設計された指標に従って映像をサンプリングすることで要約映像を作成する. しかし,それら多くの手法はユーザの意図を反映するように要約映像をコントロールすることができず,ビデオブログのための映像制作には適していない.

そこで本発表では,ユーザの意図に着目した映像要約を提案する. 提案手法ではユーザが表現したい内容を記述したビデオブログのテキストを用い,そのテキストの内容に合った箇所を選択することで,ユーザの意図を反映した要約映像を生成する. 提案手法はテキストと映像をそれぞれオブジェクトの集合として考える. テキストについては名詞を,映像については画面に写った人やものをオブジェクトして用いる. このとき,映像のオブジェクト表現を得るために,映像中のオブジェクトをアノテーションとして付与することが必要となる. そこで本研究ではまず,映像のアノテーション付与のためのインターフェースを提案する. 提案手法ではオブジェクト表現を用いてテキストと類似する映像群を選択し,要約映像を生成する. 具体的には,テキストと映像のオブジェクト表現の類似度を定義し,この類似度に基づく目的関数の最適化として,映像要約を定式化する. 加えて,テキストと映像の類似度だけでなく,クラスタリングに基づく映像の優先度を目的関数に導入することで,よりテキストの内容に合った映像の選択を試みる.

本研究では提案手法を評価するためにユーザスタディを実施した. ユーザスタディでは要約映像をビデオブログに使用することを想定し,種々のベースライン手法と比較した. このユーザスタディでは主に次の2点について調査した. 1. ビデオブログ用動画の作成支援として提案手法が有効であるか 2. テキストに沿った内容の要約映像が実現できているか この結果から,提案手法がビデオブログのための映像編集に有効であることを示すとともに,新たに得られた要約映像の要件に関する知見について発表する.