音声器官動作の操作を可能とする統計的音声加工法

伊佐衣代 (1551007)


音声制御技術は、入力音声の声質や発音、韻律を変更することで音声を操作する 技術である。代表的な音声制御技術の一つとして、声質に着目した統計的声質変換 が広く研究されている。声質変換手法の基本的な考え方は、元話者と目標話者の音 響特徴量の対応関係をモデル化し、ある話者(元話者)の音声を目標話者の音声へ と変換することである。今まで声質のみの変更が可能である一方、その他の特徴 (発音や韻律など)の変更が未だに困難となっている。最近になって、調音器官動 作の手動操作による発音制御手法が提案されている。また、藤崎モデルを用いた韻 律の手動変換手法も存在している。しかしながら、発音と韻律の両方の手動操作に 焦点を当てた先行研究は多くない。そこで本研究では、発音や韻律の手動操作可能 な音声制御手法を提案する。提案手法は、韻律生成過程を考慮した音声制御手法と 調音器官動作を考慮した音声制御手法を組み合わせたものである。提案手法の有用 性を確認するためにいくつかの実験を実施する。実験では、提案手法を適用するこ とによって通常音声から目標発話様式への変更を試みる。ここで、目標発話様式に は Hyper-/Hypo-articulation を用い、主観評価により評価を行う。実験結果より、 韻律のみの操作手法または韻律と発音の両方を操作する手法を用いて通常音声から Hyper-/Hypo-articulation らしい音声への手動変更が可能であることを示す。ま た、発音と韻律の両方を変更する提案手法はより Hyper-articulation らしい音声を 得るために有用であることを示す。