ゼミナール講演
日時
平成 17年 1月 24日(月) 4限 (15:10 -- 16:40)
場所
L1
講演者
南 泰浩
所属
NTT CS基礎研
講演題目
音声認識におけるダイナミクスのモデル化
概要
音声認識は、音声を時系列のパターンに変換し、識別する手法である。音声のような時系列パターンを扱うときに問題となるのは、同じ人の発声であっても1回1回の発声で音の長さが微妙に長くなったり短くなったりすることである。このような時間的な長さの伸び縮みをうまくモデル化する手法としてHMM (Hidden MarkovModel) が提案され、音声認識の標準的な手法となっている。また、音声認識では、性能を向上するために時間的な変化などをうまくモデル化することも重要である。このような手法として、音声の時間的な変化の度合いを表す特徴量の微分係数を利用する動的特徴量が提案され、これも音声認識の標準的な手法となっている。以上のような音声の時間的な動きをモデル化する手法のことを音声のダイナミクスのモデル化と呼ぶ。本ゼミナールでは、現在音声認識で標準的に用いられるHMMや動的特徴量などのダイナミクスのモデル化についての概説を行う。さらに、より高度な音声のダイナミクスをモデル化することが出来得ると最近期待されているDBN (Dynamic BayesianNetwork)による音声認識についても概説する。
ゼミナールI,II予定ページへ戻る
平成16年度ゼミナール担当