統計的声質変換における目標話者による同一文発話間ののスペクトル特徴量変動に対する分析とその予測

犬飼 辰夫 (1151013)


統計的声質変換技術におけるスペクトルパラメータ変換処理おいて, その評価指標や変換モデルの学習指標として, しばしば変換パラメータと目標パラメータ間の距離尺度(例えばメルケプストラムひずみ)が用いられる. しかしながら,同一話者が同一文を発話した際においても, スペクトルパラメータは変動するため,スペクトルパラメータ間の距離は零とはならない. また,特にリアルタイム変換処理においては,複雑な変換処理を韻律パラメータに対して施すことは困難であるため, しばしば入力音声の韻律特徴を保持した変換音声が生成される. 同一話者が同一文を異なる韻律特徴で発話した音声を生成することが目標となるが, この際に許容される発話間のスペクトルパラメータ間の距離についても考慮されていない. 本論文では,スペクトルパラメータとしてメルケプストラムに着目し, 同一話者が同一文を発話したときに生じるその変動量について調査する. また,発話間の韻律特徴の違いから,メルケプストラムの変動量を予測する手法を提案し, 実験的評価結果から,その有効性を示す.