歌声合成システムの音源データに対する声質推定と声質制御

山根 壮一 (1451118)


合成用の音源データ(歌手の歌声)を入れ替えることで, 合成歌声の声質を自由に変更できる一方で, 利用可能な音源データ数は膨大であるため, 所望の声質を持つ音源データを見つけることは困難である. また, 歌声合成システムは声質操作機能を持つが, 操作可能なパラメータや操作性などに関して技術的な制約が数多く存在し, 所望の声質を実現するのは不可能に近い.
これら問題に対し, 本研究では, 声質を直感的に数値化した声質評価値を用いた枠組みとして, 音源データ検索のための声質評価値推定法と声質評価値操作に基づく声質制御法を提案する. 主に声質変換技術で用いられる混合正規分布モデルに基づく声質のモデリング法を応用することで, 音韻成分に依存することなく歌声の声質を精度よく捉える音響特徴量の抽出を実現し, 声質評価値との対応関係を回帰分析によりモデル化する.
声質評価値推定の実験的評価結果より,
1) "年齢","性別"に関する声質評価値は高い推定精度が得られること,
2) "力強さ","癖の強さ"に関する声質評価値については, 重回帰分析よりもカーネル回帰分析を用いることで推定精度が向上すること,
3) 声質のモデル化に用いる歌声データの種類は推定精度に大きな影響を与えないこと,
を示す.
更に,声質制御の実験的評価結果より, 音質劣化を一定のものに抑えつつ, 声質評価値の手動操作に基づく直感的な声質制御が可能であることを示す.