Lipreadingを用いた頑健な音声認識

永井 論(9551074)


音声は人間の会話における最も有効な通信手段である。しかし、実環境で はさまざまな雑音が存在するために、音声だけでは認識が困難なことも多い。 そのような雑音下では、健常者は相手の口の形を無意識に見ながら発話を行な うし、また聴覚障害者は、重要な情報源として、相手の口の形を見て発話内容 を理解する助けとする。さらに、提供されるさまざまな情報を、キーボードを 使わずに検索するなど、マルチモーダルなインターフェースが求められてきて いる。

そこで本論文では、読唇法(Lipreading)に着目し、唇画像の処理を2次元フー リエ変換で行ない、特徴量を抽出し、HMM(隠れマルコフモデル)を用いて得ら れた学習モデルで発話内容を認識することを試みた。その結果、Tied-Mixtureの 分布を用いることで、500単語認識で60.4\%、100単語認識で85.0\%という認識率 を得た。

さらに、音響的特徴量と唇画像の特徴量を統合した認識実験を行ない、音声の み、および唇画像のみの結果との比較検討を行なった結果、統合することにより 最大で12\%の認識率の改善が行なわれた。また統合方法では、結果統合の 認識結果の方が認識率が良くなることが、実験により明らかになった。