肉伝導音声変換のための統計的音響特性補正法

宮本 大輔 (0751126)


体表接着型マイクロフォンの一つであるNon-Audible Murmur (NAM)マイクロフォンは外部雑音に強く,また,周囲に聞こえないほど小さなつぶやき声から通常の音量の発声まで収録が可能である. 一方で,NAMマイクロフォンで収録される肉伝導音声は,通常のマイクロフォンで収録される空気伝導音声と比べて音質が低い. このため,統計的声質変換に基づいて,肉伝導音声から空気伝導音声の声質に変換することで音質改善を行う,肉伝導音声変換が提案されている. この手法は,肉伝導音声から空気伝導音声へ変換するための確率モデルを事前に学習しておき,変換処理を行う際に使用する. しかし,肉伝導音声の音響特性はNAMマイクロフォンの圧着位置などの収録環境に敏感であり,実際の使用においては学習時と変換時の音響特性の不一致により,変換音質が大きく劣化する. この問題を解決するため,本論文ではCepstrum Mean Subtraction (CMS),Constrained Maximum Likelihood Linear Regression (CMLLR),Constrained Structural Maximum A Posteriori Linear Regression (CSMAPLR)に基づく肉伝導音声変換のための音響特性補正法を提案する. さらに,CMSとCSMAPLRの組み合わせ,Signal Bias Removal (SBR)とCSMAPLRの組み合わせに基づく音響特性補正法を提案する. 主観および客観実験結果から,提案手法が音響特性の不一致に起因する変換音質の劣化を劇的に改善することを示す.