肉伝導音声変換における異なる収録機器への対応と変換処理に低演算量化

出口 大祐 (0951083)


近年,携帯電話が普及し,多くの人々が「いつでも」「どこでも」音声を用いてコミュニケーションをとることが可能となった. しかし,人ごみや工事現場などの雑音環境下では,外部雑音が混入し,相手に発声内容を伝えることは困難である. また,図書館や公共機関のような静穏環境下では,声を出すこと自体がためらわれる. しかしながらこのような状況下においても,快適に音声を用いてコミュニケーションをとることができれば,さらに利便性が増す.

このニーズをかなえるべく,体内を伝わる体内伝導音声を用いた音声コミュニケーションが数多く提案されている. 本発表では,体内伝導音収録用マイクロフォンの一つとして体表から体内を伝導する音声を収録するNAMマイクロフォンに着目する. このマイクロフォンの特徴は,通常の音量の音声から周囲に聞こえないほど小さなつぶやき声であるNAMまで収録できることである. しかし,NAMマイクロフォンで収録される肉伝導音声は,体内伝導特性などの影響により,通常の空気伝導音声と比べて音質が大きく劣化する.

NAM マイクロフォンを用いて収録される肉伝導音声の品質を改善する技術として,統計的声質変換に基づく肉伝導音声変換法が提案されている. この音質改善法は,肉伝導音声と通常音声の同一発話により得た音響特徴量から変換モデルを構築することで,肉伝導音声から通常音声への変換を実現する.肉伝導音声変換の利用により肉伝導音声の音質が大幅に改善するが,その実用化においては,問題点が残っている.本発表では,2つの問題点に着目する.

一つ目の問題点として,肉伝導音声変換の学習時と変換時において収録音声の音響特性が変化しないという仮定を必要とするため,仮に音響特性が大きく異なると,大幅な音質劣化が生じる.実際の使用状況を想定すると,NAM マイクロフォンの圧着位置や異なる収録機器の使用など,収録条件を一定に保つのは困難である.これまでに,制約付き最尤線形回帰(CMLLR: Constrained Maximum Likelihood Linear Regression) に基づく教師なし音響補正法が提案され,NAM マイクロフォンの圧着位置に起因する音響特性変化に対して,その有効性が報告されている. そこで,CMLLR に基づく音響特性補正法を,収録機器の違いによる音響特性変化に対する補正に応用し,その有効性を評価する.客観的及び主観的評価実験から,本手法により,異なる収録機器を用いた際でも変換音声の音質劣化を大幅に低減できることを示す.

二つ目の問題点として,従来の肉伝導音声変換では,高品質な音声分析合成方式が用いられており,音源特徴量の変換も可能となる一方で,比較的演算量が多くなる. 携帯電話等への応用や低演算なリアルタイム処理を実現するためには,より演算量の低い処理が求められる.そこで,肉伝導音声変換に残差波形を用いた合成法を導入し,低演算量化を行う.客観的及び主観的評価実験から,提案法により,従来法と同等以上の音質を保ちながら変換処理の演算量を大幅に低減できることを示す.