NAIST-IS-MT9651089: Hideki Banno

短時間位相の効率的表現方法TSGDとその声質変換への適用

坂野秀樹 (9651089)

音声の短時間位相を効率的に表現する方法を提案する．提案手法では，音声の群遅延を逆フーリエ変換したものを適当な次数で打ち切った時間領域平滑化群遅延（TSGD）を用いることにより位相の効率的表現を可能とした．セグメンタルSNRによる実験では TSGDの100次以下に波形の形状に関する情報が集中していることが分かった．さらに，主観評価実験においてはTSGD30次程度で原音とほとんど区別のつかない高品質な音声が合成されることが示された．また，提案手法を用いれば，これまで分析合成方式などで問題になっていた有声無声判定も不要となるため，音声符号化や声質変換などの応用に有効であると考えられる．

次に，TSGDを用いた声質変換を提案する．位相の低域を零位相にすることで，原音の位相情報を保持しているにも関わらず，合成のアルゴリズムは極めて分析合成方式に近いものとなった．この処理により，変形を加えても劣化が比較的少ないという分析合成方式の特徴を持つ声質変換システムの構築が可能となった．しかも，変形が少ない場合は分析合成方式による合成音の品質を凌駕し，PSOLA法による合成音にも匹敵する品質を持つ音声を合成できることが示された．