統計的手法による肉伝導小声の品質改善

関本 英彦 (0551074)


 人とコミュニケーションする上で,音声は非常に有効な手段の一つである.メールといった文字情報が主体となるコミュニケーション方法では人の感情などの情報が文面に反映されないため,理解が困難となる.しかし,音声は文章に抑揚と付け加えることで様々な情報を容易に表現することができる.
 近年,携帯電話が普及するにつれて,「いつでも」「どこでも」音声によるコミュニケーションが可能となった.携帯電話による音声コミュニケーションは非常に便利である反面,外部雑音の影響を受けやすく,状況によっては正しい発話内容を受聴できない問題がある.それ以外にも,音声コミュニケーションを行う際,周囲の人の迷惑がかかる,もしくは周囲の人が気になりプライベートな会話が容易ではないという問題もある.
 本発表では,外部雑音に頑健であり,かつ周囲の人に聴取できない音声が収録可能な非可聴つぶやき(Non-Audible Murmur: NAM)マイクロホンに着目し,NAMマイクロホンを用いた音声コミュニケーションの実現を目指す.NAMマイクロホンはヘッドセットマイクロホンのような空気伝導マイクロホンではなく,筋肉などの軟組織伝播によるマイクロホンとなる.そのため軟組織によるローパスフィルタが働き,収録した音声は聴覚上こもった音声になり,満足なコミュニケーションが可能であるとは言い難い.
 そこで本発表では,混合正規分布モデル(Gaussian Mixture Model: GMM)を用いた声質変換技術を用いることでNAMマイクロホンにより収録される小声(Small Body Transmitted Ordinary Speech: SBTOS)の音質改善を試みる.その際,SBTOSから通常音声への変換(SBTOS-to-SP),及び小声への変換(SBTOS-to-SSP)を検討する.
 客観,及び主観評価実験の結果,SBTOS-to-SSPはSBTOS-to-SPより優れていることを示す.さらに,変換音声の音質に影響を与える励振源モデルに関しても詳しく検討する.