実環境音声情報案内システムにおける環境雑音および不要発話の識別

中村 敬介 (0251081)


実環境で音声認識を実現する際の問題点として,笑い声,咳およびくしゃみなどの不要発話や,足音,背景会話およびマイクの摩擦音などの雑音をいかに排除するかが挙げられる.本研究では,音声/非音声を音声認識の前処理段階で識別できる音声対話システムを目指し,混合正規分布モデル(Gaussian Mixture Model: GMM)を用いた環境雑音入力および不要発話の識別法を実環境において評価した.公共の場に設置された音声情報案内システムにおいて,6ヶ月間の運用により発話を収集した.この音響データについて,音声(子供,大人)および非音声(笑い声,咳,雑音(背景会話を含む))の2カテゴリ,計5クラスに分類し,最大512混合を持つ大規模GMMを学習した.識別実験を行った結果,128混合GMMではクラスごとの識別率は平均80.6¥%,音声/非音声の識別率は平均96.3¥%を示した.5クラスによる音声/非音声の識別は,音声と非音声ごとに作成した2クラスGMMよりも識別性能が高く,非音声の種別に応じて詳細にクラス分けすることで識別性能を改善できることが示された.また,Cepstral Mean Subtraction(CMS)を使用しない場合,クラスごとの識別率が平均3.2¥%向上した.