対話音声データベースの自動ラベリングと統計的分析に基づく話し言葉音響モデ ルの構築

米良 祐一郎 (0051109)


近年,音声認識技術はディクテーションなどの読み上げタスクにおいて成功をおさめている.しかし,人同士の自然な対話のような話し言葉の発話については,発声のなまけや話速などの自然発声に特有の現象をモデル化するのが難しく,認識性能が十分ではない.本発表では,大量の音声データベースに対して自動ラベリングによる音韻の統計的な分析を行なうとともに,そのラベルの音響尤度や継続時間長の傾向に基づいて音韻モデルを改善する手法を提案する.

まず,Viterbiアルゴリズムを用いた音声データの自動ラベリングの評価を行ない,手動ラベルと遜色ない精度が得られることを確かめた.次に,自動音韻ラベルとその区間の尤度を用いてHMM音韻モデルの精密化を試みた.話速の変化やそれに伴う変形などのずれがより顕著に表れる音素集合に対して,話速や変形ごとに異なるモデルを並列に定義して,マルチパスモデルを構築した.語彙サイズ20~kの新聞記事読み上げタスクにおいて評価を行なった結果,提案したモデルはPTMで単語正解精度が92.3~\%から92.8~\%に向上した.また旅行対話~(語彙サイズ8k)タスクの評価では,68.8~\%から69.5~\%に向上した.