実環境ハンズフリー音声認識のための音響モデルと言語モデルに基づく音声区 間検出および認識アルゴリズム

酒井 啓行 (0651039)


ハンズフリー音声認識は 音声対話ロボットやカーナビゲーションなどで自然なインターフェースを 実現するために必要不可欠な技術である.しかしながら,ハンズフリー音声認識 では接話で収録された音声と比べ,背景雑音の混入など様々な理由から入力音声の SNR(Signal-to-Noise Ratio)が低下する.また,ユーザの声の特徴が雑音に 埋もれるいった問題がある.これらの理由から音声認識性能は低下するが, 特に音声認識処理の中のひとつである音声区間検出が困難となってしまう.音声区 間検出は入力音声からユーザの発話した区間を特定する処理であり,通常音 声認識の前処理として行われる.そのため,音声区間検出が誤っていれば,音声認識も誤ってしまう.雑 音環境下における音声区間検出は非常に 重要な課題であり,様々な研究が行われているが,実環境ハンズフリー 音声認識において一般的な発話タスクの認識などに適応することは難しく, まだまだ改善が必要である.

そこで本研究では,実環境ハンズフリー音声認識のための新しい音声区間検出およ び認識アルゴリズムについて報告を行う. 提案手法では従来手法とは全く異なる処理を取ることにより,ハンズフリー 環境下において頑健に音声区間検出を行う.

提案アルゴリズムを実際に音声認識エンジンJuliusに実装することで提案 手法の評価を行った.まず1つは音響モデルの環境適応の有無により提案手 法の性能の検討を行う実験で,2つ目は従来の音声区間検出を用いた場合と の比較実験を行った.実験によりハンズフリー音声認識の時,提案手法は 従来手法と比べ大幅に性能が改善されたことを示した.また音響モデルの 環境適応により性能が改善されることも示された.

最後に提案手法を導入した認識エンジンを本研究室で運用している音声対 話システム「キタちゃん・キタロボ」に採用することで,ハンズフリー音 声対話システムを構築したので紹介を行う.

付け加えて,音声認識エンジンJuliusのバージョンアップの伴い,本研究の提案アルゴリズムが採用され, 提案手法がオプションとして使用可能となった.(バージョン4.0以降) そのため誰でも簡単に提案手法を使った音声認識が利用可能となっている.

音声認識 エンジンJuliusホームページ