Implementation of real-time statistical voice conversion on DSP
リアルタイム統計的声質変換のDSP上への実装

Takuto Moriguchi (1151106)


Speech is one of fundamental communication, and it is easily used in everywhere and at anytime owe to spreading cellular phones. On the other hand, there is a problem in speech such as that it is unable to speak in silent environment, or who don't have vocal cords. Non-audible murmur (NAM) and alaryngeal-speech is expected to resolve problem in conventional speech communication. But, NAM and alaryngeal-speech have relatively low intelligibility and naturalness. In order to solve the problem, real-time statistical voice conversion is one of promising approaches to recover voice intelligibility and naturalness. Although it has been successfully implemented on devices with sufficient computational resources, an implementation in limited computational resources such as small portable devices would greatly contribute its practical use. In this thesis, we implement a real-time voice conversion from non-audible-murmur-to-whisper and from alaryngeal-speech-to-speech on a DSP for silent speech interfaces. To achieve real-time processing, we propose some methods for reducing computational cost while keeping conversion accuracy high. We conduct experimental evaluations, and shows real-time statistical voice conversion works on DSP and conversion accuracy.

音声は基本的なコミュニケーション手段の1つであり,携帯電話等の普及によりいつでもどこも使用することが容易となった一方で,静穏環境下や身体的障害などにより,音声コミュニケーションを用いれない問題が浮き彫りとなっている. 従来の音声コミュニケーションを拡張する音声として非可聴つぶやき(Non-Audible Murmur: NAM)や無喉頭音声が期待されている. NAMや無喉頭音声は自然性が低く,その問題に対して,統計的手法に基づくリアルタイム声質変換処理を用いた音声強調技術は非可聴つぶやき強調や無喉頭音声強調に有効である. これまでは,十分に計算リソースが得られる環境下での動作が確認されているが,本技術を実環境で用いるには,より携行性に優れた小型のデバイスの使用が望まれる. 本報告では,サイレント音声コミュニケーションのためのNAMからささやき声への変換処理と,無喉頭音声強調のための電気音声から通常音声への変換処理を,小型で低消費電力なデバイスで あるDSP上へと実装する. DSP上でのリアルタイム変換処理を実現するために,変換精度を保ちつつ,演算量を削減する手法を提案する. 実験的評価結果から,DSP上でリアルタイム統計的声質変換が動作可能であることを示すとともに,得られる変換精度を示す.