音響尤度を用いた書き起こし作業削減のための 音声データ自動選択

加藤智之 (0451037)


音声認識技術の向上により高速で高精度な認識が可能となり,今や実用化の段 階に入っている. 不特定話者を対象としたシステムでの高精度な音声認識を行うためには, 実際のシステムで収集した音声とその書き起こしを用いた音響モデルの学習が欠かせない. しかし,書き起こしには多くの時間と労力が必要であり,コストがかかる. これが不特定話者を対象としたシステムの普及を妨げる一つの要因である.
この問題に対して,モデル構築に有効な音声データを事前に選択することで, 書き起こしのコストを下げることができる.

本研究では,学習に使用するデータセットを事前に選択し, 選択されたもののみ書き起こしを作成することにより, モデル構築コストを削減する手法を提案する.

提案法により,実環境音声情報案内システムによって自動収集された音声から, 学習に使用するデータセットを音響尤度に基づいて自動選択することで, 書き起こし量を50%〜90%削減し,学習した音響モデルの精度を評価した. 収集データの量が少ない場合は,学習データを選択することで, 全データを使う場合と同等以上の精度が得られることが分かった. 収集データの量が多い場合は,全データを使用する場合に比べて精度は低下するが, 1%未満の認識精度の低下で書き起こし量を30% まで削減することができた. 発表では,これらについて報告する.