NAIST-IS-MT1351108: Yuki Murota

バイノーラル音源分離における時系列事前分布モデルとスペクトル基底の同時適応

室田勇騎 (1351108)

本論文では，バイノーラル信号を対象として，分離音源の音像定位を保持し，未知の頭部伝達関数 (HRTF) による信号の変形に対しても頑健かつ高精度に分離が可能な音源分離手法を提案する．近年，音楽メディアは電子ファイルとして供給されインターネットを通じて配信される機会が増加している．そのため，ユーザが既存の音楽メディアを自由に編集するなどの能動的な創作活動が盛んになっている．このような背景から，音楽信号を対象とした信号分離手法が広く注目を集めており世界中で盛んに研究されている．この音楽信号分離技術は，複数の楽器が混合された音楽信号の中から特定の楽器音を分離・抽出することを目的としており，オーディオリミックス，自動採譜，3D オーディオシステムへの利用といった様々な応用先が考えられる．

これまでの研究において，教師あり非負値行列因子分解 (SNMF) や平均二乗誤差最小化短時間振幅スペクトル (MMSE-STSA) 推定法に基づく音源分離手法が提案されている．しかしながら，いずれの手法においても多くの問題があり，頑健かつ高精度に目的音信号を分離する手法は未だ提案されていない．そこで本研究では，未知の HRTF による信号の変形に対しても高精度に分離を行うことを目的として，時系列事前分布モデルとスペクトル基底の同時適応を行う定位保持型バイノーラル音源分離手法を新たに提案する．本手法の実現にあたり，まず，高次統計量解析に基づき，一般化 MMSE-STSA 推定法における最適な目的音事前分布パラメータ推定法について述べる．この手法により観測音信号中の目的音信号にとって最適な時系列事前分布パラメータを推定することが可能となる．次に，上記の知見をバイノーラル信号へと拡張し，最適両耳共通スペクトルゲインを用いた定位保持型バイノーラル音源分離手法を提案する．これにより，HRTF などの両耳情報を利用することなく，目的音信号の音像定位を保持した高品質な分離を行うことが可能となる．最後に，SNMF における教師基底を中間的な音源分離音 (MMSE-STSA 推定器出力) に適応させることにより，時系列事前分布モデルとスペクトル基底を反復的に同時適応する手法を提案する．その後，性能評価実験を行うことにより，提案手法の有効性を確認した．