判定帰還型事前SNR推定法を用いた音声強調法に関する高次統計量に基づくミュージカルノイズ発生量の理論解析

金原 涼美 (1151040)


本発表では,事前SNRの推定に判定帰還型推定(decision-directed: DD)法を用いた非線形音声強調法(DD型音声強調法)における ミュージカルノイズ発生量の高次統計量に基づく数理解析を提案する. 近年,多数の音声通信に関するアプリケーションが研究されており,その中でも音声強調は重要な問題の1つとして挙げられている. 雑音抑圧性能の高い処理として,スペクトル減算法(SS)やウィーナフィルター(WF)等に代表される非線形音声強調法が提案されている. しかし,これらの処理において,出力信号にミュージカルノイズと呼ばれる非線形処理特有の歪みが発生し,致命的な音質劣化を引き起こすことが知られている.

先行研究において,ミュージカルノイズ発生量を定量的に評価するために,Uemuraらによって高次統計量を用いた尺度が提案された. さらにこの尺度を用いて,SSや一部のWF族などによって生じるミュージカルノイズ発生量に関する理論解析が行われた. 一方,平均二乗誤差最小化短時間振幅スペクトル(MMSE STSA)推定法等に代表されるDD型音声強調法は, 比較的ミュージカルノイズ発生量が少ないことで知られているにもかかわらず, DD型音声強調法についてこの尺度を用いたミュージカルノイズ発生量の理論解析はこれまで行われていなかった. そこで本研究では,代表的なDD型音声強調法におけるミュージカルノイズ発生量を高次統計量に基づき定式化することを目標とする.

一般に,DD法には無限の非線形な再帰処理が含まれているため,高次統計量尺度をそのままDD型音声強調法に適用させた解析を行うことは不可能である. 本研究では,まず,Breithauptらの提案する近似モデルを導入することで,高次統計量を用いた評価尺度を 代表的なDD型音声強調法であるWF,MMSE STSA推定法,平均二乗誤差最小化対数短時間振幅スペクトル(MMSE LSA)推定法に適用し,これらの手法に関して解析を行った. %おけるミュージカルノイズ発生量の高次統計量に基づく数理解析を提案する. 理論解析および評価実験から,MMSE STSA推定法とMMSE LSA推定法については,これまでDD法のパラメータとして標準的に0.98という値が用いられていたことの根拠が理論的に示唆され, WFについてはこの0.98という値を用いる根拠が無いことが理論的に明らかとなった.

次に,より高精度な解析を行うため,数値計算による解析を行う. 特に,効率の良い計算を行うために一般化ガウス・ラゲール求積法を導入し,高次統計量を用いた評価尺度を WF,MMSE STSA推定法,MMSE LSA推定法,及び最大事後確率(MAP) 推定法に適用し, これらの手法に関して解析を行った. 理論解析および評価実験から,近似モデルを用いた場合と異なり計算にやや時間を必要とするものの,高精度な解析を行うことが出来た.

最後に,一般化ガウス・ラゲール求積法を用いた理論解析結果と主観評価によって,MMSE STSA推定法,MMSE LSA推定法,MAP推定法の3手法について相互比較を行った. その結果,MMSE STSA推定法を施した信号でミュージカルノイズは最も少なく知覚されるが,その度合いは雑音の種類に依存することが明らかとなった.