音響的特徴量と言語的特徴量を利用した吹き出しテキストの生成

松宮 翔 (1251097)


字幕放送はテレビ番組のナレーションやドラマのセリフなどの音声を文字にして伝える放送であり, テレビの音が聞き取りにくい高齢者や聴覚障害者への重要な情報提供手段である. そして,近年の音声認識技術の発展によって自動字幕付与技術の拡充が進んでいる. しかし,従来の字幕付与では,音声をテキストに書き起こすのみでとどまり,コミュニケーションの分野 において重要な役割を果たす感情の表現が欠如している.

本発表では,マンガ等で感情をうまく表現するツールとして用いられている 吹き出しに着目する. 音声に内在する感情に合った形をもつ吹き出しを,字幕と合わせて付与することにより, テキストだけでは伝わらない感情も視聴者に伝えることができる吹き出し生成システムを提案する. その実現に向けて,吹き出しと感情の関係を明らかにし, 音響的特徴量と言語的特徴量の2種類の特徴量を用いて, 音声に内在する感情に適した吹き出しを分類する手法の提案と評価を行った結果を報告する.