人間対人間と人間対機械の対話音声認識の検討

内田 賢志 (0051011)


近年,音声認識技術の高度化により,丁寧に読み上げた音声に関しては十分な精 度で認識できるようになった.しかし,自 然な話し言葉を認識しようとすると認識性能は大幅に低下してしまう傾向にある. これまでに,従来手法の拡張やデータベースの拡充によるモデルの高精度化などの 様々な試みが研究されているが,どれも十分な成果を得られていない. 話し言葉の認識結果を分析し 考察することは,自由発話の認識を目指す上で重要であると言える.

本研究では,話し言葉として人間対人間と人間対機械の対話音声を取り上げ,これ らの音声認識に向けて認識実験を行い分析した結果について報告する. また本分析のために,対象タスクに依存したコーパスと話し言葉の発話様式に依存し たコーパスからタスク依存の言語モデルを構築する.

人間対人間の対話音声として,RWCP音声データベースから店員と 客との車の購入に関する対話セットを用いる. これは,日常の会話に非常に近い自然な発話である. 言語モデル構築のためのコーパスには,車に関する議論が行われるWebの掲示版か ら収集したテキストと,「旅行対話」タスクのATR対話データベースを用いる. 最も高性能なモデルを用いた場合の認識実験の 結果,単語正解精度は$54.0\%$であった. また,「えーと」「あのー」といったフィラーや言い淀みが多い話者において正解精度 が低く,このような現象を含む発話に対して,フィラーのモデル化や透過語処理 といった対策の必要性を確認した.

人間対機械の対話音声としては,学内の施設や先生方の居室に関する質問などを 含む「受付案内ロボット」との対話を想定したタスクを用いる. この対話音声は人間対人間の対話ほど自由な発話ではなく,言い 淀みなどの現象も少ないが,会話にも用いるような話し 言葉の発話様式である. 言語モデルの学習用コーパスにはWebなどから収集した本学関連のテキスト,およ びアンケートにより収集した「受付案内ロボット」に対する質問文を用いた. 認識実験の結果,単語正解精度は$83.4\%$であり人間対人間の対話よ りも高精度で認識可能であった. 更に分析を行った結果,約$9 モーラ/秒$以上の発話速度では高い正解精度が 得られず,両者間に相関が見られた. またパープレキシティと正解精度に関しても,互いに相関があることが 確認できた.