重回帰混合正規分布モデルに基づく声質制御における制御パラメータの設計
久保 和隆 (1351036)
直感的な声質制御を実現する手法として,重回帰混合正規分布モデル(multiple
regression Gaussian mixture model: MR-GMM)を用いて,声質表現語に対応す
る知覚スコアに基づき,変換音声の声質を手動制御する枠組みが提案されている.
この枠組みでは,学習データとして使用する多数の事前収録目標話者の各々に対し
て,特定の声質表現語に基づく知覚スコアを付与することで,声質表現語と音響特
徴量間の対応関係が統計的にモデル化される.そのため,得られる声質制御性能は,
使用する声質表現語および付与される知覚スコアの精度に大きく依存すると考えら
れるが,この点についてこれまでに詳細な検討がなされていない.本論文では,複
数の声質表現語を用いた高精度な声質制御の実現を目指し,声質制御パラメータの
設計法の確立に取り組む.声質制御性能に大きく影響を与える要因として,知覚ス
コア間における独立性と,学習された MR-GMM における各知覚スコアに対応す
る音響特徴量間の独立性に着目し,両独立性を高めるように声質表現語の選定およ
び知覚スコアの付与を行う手法を提案する.実験的評価結果から,提案法により声
質制御性能が改善されることを示す.