統計的声質変換を用いた食道音声の品質改善

土井啓成(0851069)


音声は人にとって最も簡単かつ重要なコミュニケーション手段の一つである.しかしながら,発声障害者はその限りではなく,日常生活の様々な場面で不便を強いられる.そのため,発声障害者を支援する技術が古くから研究されている.本研究では,発声障害者の中でも特に,声帯を含む喉頭全体を摘出した喉頭摘出者に注目する.喉頭摘出者は,自身の声帯振動を用いた音源生成が行えないため,他に音源を求めなくてはならない.喉頭摘出者の代表的な発声法の一つに食道発声法がある.食道発声法は,食道に取り込んだ空気を吐き出す際に,食道入口付近の粘膜を振るわせて音源を生成するため,肉声感のある音声を生成できる.ただし,気流生成及び音源生成過程において,健常者の音声にはない独特の音が生じるため,音質が劣化してしまう.また,それに伴い,個人性が失われてしまうという問題もある.

そこで本研究では,統計的声質変換を用いた食道音声から健常者の音声へ変換(Esophageal Speech to Speech: ES-to-Speech) による食道音声の音質改善を提案する.また,ES-to-Speechに一対多固有声変換を導入することで,変換音声の声質を制御可能にする.これにより,ユーザは所望の音声で話せるようになり,ユーザ独自の声質を手に入れることができると考えられる.実験的評価の結果から,ES-to-Speechでは,食道発声の音質を大きく改善しながら,声質の制御も可能であることが分った.