敵対的生成ネットワークに基づく音素単位で話速が変化する音声合成

岡本真由子


テキスト音声合成(Text-to-Speech: TTS)は入力された文から音声を生成する技術で,その学習には読み上げ音声データが多用されている.そのため,合成された音声が自然発話と異なり単調になり,対話システムなど自然発話を想定したシステムに用いる場合に違和感が生じてしまう. 人間同士の対話では相手の発話に無意識に同調するエントレインメントと呼ばれる現象があり,この現象が強く起こっている時には対話に抱く印象が良いことが知られている.そのため,音声対話システムにおいても,相手の発話特徴に同調させることが,対話の自然性につながるのではないかと考える. 本研究では発話特徴の一つである話速に着目する.対話相手の話速を考慮し音素ごとに話速を制御するためには,話速の認識,および話速の制御が必要である.そこで,話速を認識できるマルチタスク音声認識(Automatic Speech Recognition: ASR),そして話速を制御可能な敵対的生成ネットワークを用いた音声合成(Generative adversarial network TTS: GAN-TTS)を提案する.さらに,これらを組み合わせたSpeech Chainネットワークを構築し,音声認識の出力を音声合成の入力に用いることで,話速において入力音声の模倣をすることのできるようなシステムの構築を目指す.