声質制御を実現する技術の一つとして,音声モーフィングがある. 音声モーフィングでは,入力音声の声質は,基本周波数やスペクトル包絡といった音響的特徴を簡便な方法(例:スペクトルの線形伸縮)で操作することにより制御される. この手法の利点は,変換モデルの学習を行うことなく,簡単に声質制御を実現できる点である. その一方で,変換音声の声質は,入力話者であるユーザ自身の声に強く依存したものとなるため,実現できる変換音声の声質は非常に限られたものとなる. 従って,所望の話者の声に変換することは困難である.
ある特定の話者の声へと変換する技術として,声質変換がある. 声質変換は,ある話者が発声した音声の声質を,別の声質へと変換する技術であり,話者の発話内容を変えることなく,声質のみを変化させることが可能である. この技術の新しい枠組みとして,固有声に基づく声質変換法(Eigenvoice Conversion: EVC)が提案されている. EVCは,特定の入力話者から任意の話者への変換(一対多EVC)や,任意の話者から特定の話者への変換(多対一EVC)を可能にする.
本発表で着目する一対多EVCでは,入力話者と複数の事前収録出力話者が同一内容を発声している音声対から成る学習データを用いて,固有声に基づく混合正規分布モデル(Eigenvoice Gaussian Mixture Model: EV-GMM)を予め学習する. 変換音声の声質は,事前収録出力話者から抽出された主な声質の特徴を捉える固有ベクトル(固有声)に対する重みパラメータにより手動制御することが可能である. しかし,各固有声は,直感的に表現しやすい声質を明確に表さないため,操作性に優れた声質制御の実現は困難である.
本発表では,「ユーザの声質に依存しない変換音声を実現可能」および「操作性に優れた声質制御を実現可能」とするシステムの構築のために,一対多EVCの枠組みを応用した,重回帰GMMに基づく声質制御法を提案する. この枠組みでは,変換音声の声質は,特定の声質の特徴を捉えた低次元のベクトルを用いて制御される. また,目標とする音声サンプルが与えられた際に,目標話者の声質へと高精度に変換するために,部分空間の拡張を導入した重回帰GMMに基づく声質制御法を提案する.
実験的評価により,提案法は高い声質制御性能と目標音声への適応性能が得られることを示す.