非可聴つぶやき認識における音響モデルの高精度化

長井孝之 (0751084)


人と機械の自然なコミュニケーションを実現するため, 音声認識技術が長年研究されている. しかし,静環境下において音声認識を利用する上で, ユーザが発話行為自体に躊躇する事や, 発声行為が周囲の人々の迷惑になる状況も存在する. 周囲に気兼ねすることなく音声認識を実現するための技術として, 近年,非可聴つぶやき(Non-Audible Murmur: NAM) 認識が注目されている. 従来研究においては,NAM発声に熟知した話者に対して話者適応技術を利用し, NAM用特定話者音響モデルを作成することで,非常に高い認識性能が得られている. しかし,一般的な話者, すなわちNAM発声に不慣れな話者の認識性能に関しては詳しく調査されていない. 本研究では,まず,NAM発声に不慣れな話者のNAM認識性能を調査する. 調査結果より,話者毎に認識性能が大きくばらつき, 従来研究ほど高精度に認識することが困難であることを示す. 次に,各話者の認識性能をより向上させ,話者間のばらつきを低減することを目指す. 話者適応によるNAM用特定話者音響モデル作成時に, 事前収録された適応話者以外のNAMデータを有効利用する 話者正規化学習(Speaker Adaptive Training: SAT)を導入する事で,音響モデルの改善を試みる. SATの導入により,各話者の認識率が向上し,話者間のばらつきを低減できることを実験的に示し, 本手法が有効であることを実証する.