本発表では,ポスタ会議発表音声アーカイブ構築を目的とした,マイクロホンアレーと画像センサから構成されるマルチメディアシステムを提案する.
近年,マイクロホンアレー信号処理を用いた高品質な収音システムの普及に伴い,これらを用いて会議やポスタ会議等におけるディスカッションを簡易かつ高品質に収録することが可能となった.しかし,収録した膨大な量の音声データから重要度の高い会話を見つけ出すことは容易ではない.そこで本研究では,音声データ内の重要度の高い会話や,盛り上がっている議論を検出するシステムの実現を目標とする.ポスタ会議のようなディスカッションにおいては,ほとんどの部分で発表者が解説を行い,要所で聴衆が質問するのが一般的である.したがって,聴衆が発話している部分はそのディスカッションにおいて重要度の高い箇所だと考えられる.また,発表者と質問者が交互に発話していれば,その部分では議論が盛り上がっていることが分かる.そこで本研究ではこれらの箇所を検出するため,各個別話者の発話区間推定を目指す.
本発表では,ポスタ会議発表の音声アーカイブ構築のため,目的話者の音声のみを高品質に抽出することを目的とした19チャネルマイクロホンアレーを用いた収録システムと,画像情報を用いた目的音抽出によるダイアライゼーションを提案する.本システムにおいては,独立成分分析(ICA)による雑音推定と非線形雑音抑圧で構成される目的音声抽出アルゴリズムが実装されており,任意方位の話者音声を抽出することが可能である.しかし,特に発話者が急激に移動する場合において,ICAにおけるフィルタ適応精度が劣化するという問題があった.これを改善するため,本研究では,画像情報によって話者移動を検出し,それに基づいてICAフィルタを更新する手法を導入している.
実環境における音源分離実験では,発表者抽出の場合は4.9 dBから6.6 dB程度の音声歪みで,8.9 dBから34.0 dB程度の雑音抑圧量を,質問者抽出の場合は6.0 dBから8.1 dB程度の音声歪みで,4.6 dBから10.1 dB程度の雑音抑圧量を実現した.また,ダイアライゼーション実験では,発表者の場合は0.99のF値,質問者の場合は0.88のF値に相当する推定精度を実現した.さらに,抽出した目的音声とダイアライゼーション結果を分かり易く提示するため,推定された発話区間への頭出しを容易に行うことができるブラウザを実装した.