本研究では,学習に使用するデータセットを事前に選択し, 選択されたもののみ書き起こしを作成することにより, モデル構築コストを削減する手法を提案する.
提案法により,実環境音声情報案内システムによって自動収集された音声から, 学習に使用するデータセットを音響尤度に基づいて自動選択することで, 書き起こし量を50%〜90%削減し,学習した音響モデルの精度を評価した. 収集データの量が少ない場合は,学習データを選択することで, 全データを使う場合と同等以上の精度が得られることが分かった. 収集データの量が多い場合は,全データを使用する場合に比べて精度は低下するが, 1%未満の認識精度の低下で書き起こし量を30% まで削減することができた. 発表では,これらについて報告する.