音声特徴の統計的変換法を用いた肉伝導音声の自然性改善

岩永 一成 (0451015)


人間にとって、音声は最も自然で使いやすい情報伝達手段の1つである。音声を用いた代表的なコミュニケーションツールは電話である。近年爆発的に普及した携帯電話によって、我々は時間や場所を問わず、自在に音声対話を行うことができるようになった。

こうした携帯電話の普及とともに、問題も出てきた。街中など人の多い場所や、車や飛行機などが行き交う外部雑音の大きい場所では、発話者の声が環境雑音に抑圧されてしまい、通話が思うように行えないことである。従って、外部雑音が大きい環境下でも、快適な通話を可能とする技術の需要が高まっている。

そこで、この問題を解決しうる技術として注目されているのが、肉伝導マイクである。このマイクは、耳介後下方部に装着して使用されるもので、音声を皮膚から伝達する特性を持つため、高い耐雑音性を実現できる。従って、肉伝導マイクを携帯電話に適用することにより、周囲の環境に左右されない音声通話が実現できると期待される。

しかし、肉伝導マイクにより収録した音声は、空気伝導によって収録した音声よりも、高域成分が大きく減衰したこもりのある音声となる欠点がある。それは、体表から音声をサンプリングするため、軟部組織のローパスフィルタ特性が働く事、また口唇の放射特性がほとんど入らない事に起因する。

そこで、本論文では、肉伝導マイクの携帯電話への実装を目指し、肉伝導通常音声(Body Transmitted Ordinary Speech: BTOS)の自然性改善を行う。本論文では、混合正規分布モデル(Gaussian Mixture Model : GMM)に基づく統計的特徴量間変換法を用いて、BTOSから通常音声への変換に適用することで、音声の自然性を改善することを提案する。

変換関数学習時にはBTOSと通常音声の音響特徴量間の対応関係をGMMによりモデル化する。変換時には、入力されたBTOSに対して、学習したGMMに基づいて通常音声のスペクトル特徴量、ならびに周波数帯域別非周期成分の最尤推定を行い、混合励振源を用いて変換通常音声を合成する。

客観的評価実験および主観評価実験を行った結果、統計的特徴量間変換法によってBTOSの自然性を大幅に改善できることがわかった。

今後の課題としては、実環境下でも同様の高品質な音声が保てるかの検証、ならびに携帯電話コーデックを通しての実験的評価が上げられる。