人間の発話にはささやき声や,小声など,様々なバリエーションがある. 近年,非可聴つぶやき (Non-Audible Murmur:NAM) と呼ばれる新しい発話様式も提唱された. このような様々な発話様式を音声インタフェースにおいても利用することができれば, 音声インタフェースが利用される機会が多くなると考えられる.
そこで,NAMマイクロフォンを利用した音声認識に着目する. NAMマイクロフォンは,つぶやき声などの微小な肉伝導音声を直接体表から採取可能な, 体表密着型のマイクロフォンで,外部雑音にも頑健である. また,NAMマイクロフォンは音量の小さな音声だけでなく,人間が発話する様々な音量の音声を採取することができる.
本研究では,NAMマイクロフォンにより収録された音声の認識を行った. 静環境下,雑音環境下で,どのような発話様式でも音声認識が行えるように, 音響モデルの検討を行った. paragraph delimiter 静環境下や,雑音環境下での様々な発話様式によるデータを混合して作成した音響モデルでの認識や, 並列デコーディングによって, 最も認識が困難であった非可聴つぶやきにおいても 特定発話様式モデルでの認識と同レベルの認識率が得られた.