実環境における音声案内システムの
幼児音声認識部の開発と評価

進藤 泉 (0551068)


 近年,子供用携帯端末・ゲーム機を筆頭とする商品が市場に普及し,子供音声認識の需要が日々高まっているが,実際の認識性能は低迷している. 「日本語ディクテーション基本ソフトフェア」として規定されている小児音声モデルを用いた幼児音声の認識率は21.4%であり,実用には至らない. 幼児の発話は発達途上で不安定なものであり,ひとつの単語を発話する際にも様々なバリエーションが現れる. そして,幼児特有の拗音や言い誤りなどが頻繁に現れる事も認識精度低下の原因の一部であると考えられる.

 本発表では幼児発話の特徴を実環境で収録した実験データから分析し,音声の変化を考慮した認識手法を提案する. 同一単語に対する幼児と成人の発音変化を比較し、発音辞書に幼児の発音を追加することで幼児表現のばらつきを成人表現に変換して認識を行う. また,幼児音声認識に特化した音響モデル・言語モデルを同実験データより構築し,提案法と併用することでの認識率向上を目的とする. なお,本発表では認識率が向上した際の応答正解率について述べる.応答正解率とは,音声認識システムがユーザに対して正しい返答をしているかを評価する値である.

 実験データとして,公共施設に常設されている音声情報案内システム「たけまるくん」に対して自由に話しかけられた不特定多数の子供発話(2〜15歳)を使用する. 実験的評価を行い,新たに構築した音響モデルと幼児発音を追加した発音辞書の併用により,認識率は45.5%から54.8%まで向上した.