知覚年齢に沿った統計的歌声声質制御法

小林 和弘(1251044)


歌声は,歌詞,メロディー,声質などを変化させることで,多様な表現を生み出すことが可能である. しかし,声質は歌手の身体的特徴に制限されており,身体的制約を超えた声質での歌唱は困難である. 近年,この身体的制約を超えた歌唱を実現する技術として,統計的手法に基づく歌声声質変換(SVC: Singing Voice Conversion)が提案されている. この手法は,任意の入力歌手の声質を任意の目標歌手の声質へと変換することが可能である. ただし,変換後の声質は目標歌手のものに限定され,性別や年齢のような直感的に理解しやすい基準に沿って変換歌声の声質を自由に制御する事は困難である.
本論文では,直感的な理解が容易であり,声質制御の対象となり得る要因の一つとして,歌声の知覚年齢に着目し,知覚年齢に沿った歌声声質制御を可能とする技術の構築に取り組む.
まず,歌声の知覚年齢に寄与する音響特徴量の調査を行う. 実験結果より,1)歌手の実年齢と歌声の知覚年齢には,高い相関があること,2)分節的特徴に比べ韻律的特徴は歌手の知覚年齢に大きく寄与すること,3)歌手の個人性は,分節的特徴に比べ韻律的特徴に内包されていることを示す.
次に知覚年齢に沿った声質制御を実現するために,重回帰混合正規分布モデル(MR-GMM: Maltiple-regression Gaussian Mixture Model)に基づくSVCを提案する. 更に,個人性を保持した知覚年齢制御を実現するために,修正MR-GMMに基づくSVCを提案する.
実験結果より,提案法は歌手の個人性を損なう事なく,知覚年齢に沿った声質制御が可能である事を示す.