タスク文法によるN-gram確率の部分強化を用いた音声認識アルゴリズム

鶴身 玲典 (0151066)


近年,音声認識技術がカーナビやゲーム,携帯電話などに利用されてきている. また,本学の受付案内ロボットASKAに代表されるような 人対機械の音声対話システムも注目を集めている. 現在の音声対話システムでは, 固定ユーザーの利用や読み上げのような丁寧な発話を想定している場合が多いが, 実際は複数のユーザーが使用し,自然発声に近い音声が入力されるため, 十分な認識率が得られていないという問題点がある.

音声認識に用いられている言語モデルとしては 主に記述文法と単語N-gramが挙げられる. 記述文法は人手で記述しており, 文法上受理可能なタスク内の発声は高精度で認識できるという利点がある. このため,小語彙の音声対話システムや音声コマンド認識などで用いられている. しかし,文法で受理できないタスク外の発声に対しては認識できず, あらかじめ想定される文パターンを全て記述しておくことは困難である. 一方,単語N-gramは近傍の単語連接の統計的な言語モデルであり, タスクで想定されていない発声も柔軟に認識できるという利点があるため, 大規模なタスクやディクテーション等で用いられている. しかし,学習に大規模なコーパスが必要であり, 文レベルの細かな制約は表現できないという欠点もある.

そこで,本研究では記述文法と単語N-gramを併用し, 単語N-gramを用いた認識における探索過程において, 文法の2単語間の接続制約を用いて N-gram確率を動的に強化する認識アルゴリズムを提案する. 本手法により,タスク外の発声に対する頑健性を保ちつつ タスクに特有の定型表現の認識精度を向上させ, トータルでユーザー発話の変化に頑健かつ高精度な認識を実現する.

受付案内ロボット対話タスクにおいて提案法を評価した結果, タスク内の発声に対しては文法のみを用いる場合に近い,高い認識率が得られた. また, タスク外の発声でも単語N-gramのみを用いた場合よりも高精度であり, トータルの単語正解精度は82.4%から88.0%に向上した. また,単語の生起確率のみを強化した場合との比較や, サブタスクごとの文法を用いて確率強化を行った場合の評価, 単語N-gram言語モデルに対する静的な確率値変更, および別タスクにおける認識実験についても述べる.