Hybrid Approach to High-Quality and Flexible Text-To-Speech Synthesis
(柔軟な声質制御能力を有する高音質ハイブリッドテキスト音声合成)

Shinnosuke Takamichi (1151063)


Text-To-Speech (TTS) is a technology that converts any text into a speech. The appearance of speech-to-speech systems such as a speech translation system or a spoken dialogue system have accelerated the growth in demand for TTS techniques that can achieve higher voice quality and controllability of voice characteristics in synthetic speech. The Hidden Markov Model (HMM)-based speech synthesis, which is currently a mainstream of TTS, enables flexible control of voice characteristics based on a statistical approach. However, the speech parameters generated by this approach tend to be excessively smoothed, causing muffled sounds in synthetic speech. To address this problem, several hybrid methods combining HMM-based speech synthesis and the unit selection synthesis have been proposed. Although they significantly improve quality of synthetic speech by directly using natural waveform segments, they usually lose flexibility in controlling synthetic voice characteristics. We propose parameter generation methods using so called rich context models in HMM-based speech synthesis as an another hybrid method that keeps the flexibility of the original HMM-based speech synthesis. Rich context models are statistical models that represent individual acoustic parameter segments. In training, the rich context models are reformulated as Gaussian Mixture Models (GMMs). In synthesis, an initial speech parameters are generated from probability distributions over-fitted to individual segments, and the speech parameter sequence is iteratively generated from GMMs using a parameter generation method based on the maximum likelihood criterion. Since the basic framework of the proposed methods is still the same as the traditional framework, the capability of flexibly modeling acoustic features remains. Moreover, the use of appropriate initial parameter sequence improves speech quality in synthetic speech. Experimental results show that the proposed methods for spectral and F0 components yield significant improvements in quality of synthetic speech.

テキスト音声合成は,任意のテキストから音声を合成する技術である.音声翻訳システムや音声対話システムを始めとする音声コミュニケーションシステムの増加に伴い,高音質かつ高い声質制御性を持つテキスト音声合成の需要は急速に高まっている.現在主流となっている隠れマルコフモデル(HMM)音声合成と呼ばれる技術は,高い声質制御能力を有するが,合成音声のパラメータは過剰に平滑化され,こもった音質の音声を合成する傾向にある.この音質劣化の問題を解決するために,素片選択型合成法とのハイブリッド法がいくつか提案されている.波形素片の直接的な使用により著しく音質は改善する一方で,HMM音声合成の利点である柔軟な声質制御能力は失われる.本論文では,柔軟な声質制御能力を保持しつつ音質を改善するハイブリッド法として,分散共有フルコンテキストモデルを用いたパラメータ生成法を提案する.各音声素片を確率密度関数として表現する分散共有フルコンテキストモデルから,混合正規分布モデル(GMM)を構築し,最尤基準に基づいた反復的なパラメータ生成法により音声パラメータを生成する.反復処理における初期パラメータは,各音声素片に過学習された確率密度関数から生成される.提案法は,HMM音声合成の基本的な枠組みの使用により声質制御能力を保持し,さらに,適切な初期パラメータにより合成音声の音質改善を可能とする.実験的評価結果から,スペクトル・F0に適用した提案法により,HMM音声合成と比較して著しく音質が改善することを示す.