最小平均二乗誤差規範短時間振幅スペクトル推定に基づくブラインド信号抽出に関する研究
岡本 亮維 (0851021)
本論文では,
ハンズフリー音声通話のような,人が聴くことを目的とするハンズフリー音声コミュニケーションシステムにおいて,周囲の環境雑音を抑圧し,ブラインドに目的音声を抽出する手法を提案する.従来手法として,独立成分分析(ICA)を用いて雑音推定を行い,スペクトル減算(SS)に基づきブラインドに目的音声を抽出するブラインド空間的サブトラクションアレー(BSSA)という手法が提案されているが,BSSAはSSによってミュージカルノイズと呼ばれる特有の処理歪みが多量に発生するため,人が聞くアプリケーションには不適切である.そこで本研究では,最小平均二乗誤差規範短時間振幅スペクトル(MMSE STSA)推定法に着目し,その雑音推定器としてICAを導入した手法を提案する.MMSE STSA推定法はSSと比較すると,ミュージカルノイズの発生が少ないため,聴感上の品質が高く,人が聞くのに適した手法である.しかしながら,従来の単一チャネルのMMSE STSA推定法は観測信号の非音声区間を検出し雑音を推定しているため,非定常雑音を抑圧できないという問題があった.一方,本研究で提案する手法は,ICAを用いて動的な雑音推定が可能であるため,非定常雑音環境下においても,より正確に音声を抽出可能である.
本研究では,まず,提案法の有効性を示すために,人工的に非定常性を制御可能な雑音を用いたシミュレーション実験を行った.その結果,提案法は,従来のMMSE STSA推定法に比べて,非定常雑音環境下においても頑健に動作することがわかった.また,実環境における有効性を確認するため,実際の駅環境における実験を行った.その結果,提案法は,BSSA及び従来のMMSE STSA推定法よりも高い雑音抑圧性能を示し,聴感上の音質も高いことを確認した.
続いて,上記の提案法を拡張した手法を提案する.一般に,MMSE STSA推定法は目的音声の統計モデルとして,目的音声の振幅スペクトルの確率密度関数(PDF)を固定の分布にてモデル化している.しかし,実際の音声振幅スペクトルが固定分布で表されることの保証はない.そこで本論文では,SSに基づき任意のPDFモデルをブラインドに推定する機構を導入した手法を提案する.また,SS処理の挙動解析により,SSに基づくPDFモデル推定の妥当性を理論的及び実験的に示す.最後に,実際の駅環境において実験を行い,本拡張手法は,上記で述べた提案法と比較して,音声の明瞭性に関して音質が良いことを確認する.