統計的食道音声強調におけるポーズ位置不一致データを活用したモデル学習

岸本 真由美 (1051037)


音声は人にとって最も簡単かつ重要なコミュニケーション手段の一つである. しかしながら,発声に何らかの障害を持つ発声障害者は,その限りではなく,日常生活の様々な場面で不便を強いられる. そのため,発声障害者を支援する技術が古くから研究されている. 本研究では,発声障害者の中でも特に,事故や喉頭癌等により声帯を含む喉頭全体を摘出した喉頭摘出者に注目する. 喉頭摘出者は,自身の声帯振動を用いた音源生成が行えないため,他に音源を求めなくてはならない. 喉頭摘出者の代表的な発声法の一つに食道発声法がある. 食道発声法は,食道に取り込んだ空気を吐き出す際に,食道入口付近の粘膜を振るわせて音源を生成するため,食道音声という肉声感のある音声を生成できる. ただし,気流生成及び音源生成過程において,健常者の音声にはない独特の音が生じるため,音質が劣化してしまう. また,それに伴い,個人性が失われてしまうという問題もある. 食道音声の品質改善のために, 統計的声質変換を用いた食道音声から健常者の音声へ変換(Esophageal Speech to Speech: ES-to-Speech)が提案されており,その有効性が示されている. この手法では,食道音声と多数の健常者による通常音声の同一 内容発話データを用いて,変換モデルの学習が行われる.品質の高い学習デー タを構築するためには,食道音声のポーズ位置に合わせた健常者音声の収録 が有効であるが,各食道音声に対して健常者音声を再収録する必要があるた め,多大な労力を有する.本報告では,食道音声とポーズ位置が一致してい ない健常者音声を,学習データとして効果的に使用する手法を提案し,実験的 評価結果からその有効性を示す.