ICAに基づく音声対話ロボット雑音抑圧における音声認識率改善に関する研究
平田将久 (0951102)
本論文では,ICAに基づく音声対話ロボットの雑音抑圧処理において,音声認識精度の向上に関して検討する.
ハンズフリー音声認識はロボット音声対話システムにおいて必要不可欠な技術であるが,環境雑音によって音声認識精度が低下するという問題がある.
従来の雑音抑圧技術として独立成分分析(ICA)があるが,ICAは音声と環境雑音が混合した信号から環境雑音を推定する能力が高いことがわかっている.
そこで,Takahashiらはブラインド空間的サブトラクションアレー(BSSA)という雑音抑圧手法を提案している.
BSSAは,環境雑音を含んだ観測信号から,ICAによって推定した環境雑音をスペクトル減算(SS)することで目的音抽出を行う手法であり,
リアルタイム化も行われている.
しかしリアルタイムBSSAでは,ユーザ方位情報が未知であるため,いかなる方位のユーザに対しても,
ICAにおける分離フィルタ初期値として,例えば正面方位の死角ビームフォーマ(NBF)等を使用せざるを得ない.
更にICAにて精度良く雑音推定するには,ある程度分離フィルタの学習時間が必要である.
従って,フィルタの学習が収束するまでに入力される信号に対しては雑音抑圧性能が低く,
ロボット音声対話におけるユーザの第一発話目の音声認識率が極めて低い.
上記を解決するため本研究では,ロボットにはカメラが搭載されていて,
そのカメラの画像情報からユーザ方位情報を瞬時に推定できると仮定し,
予め過去に学習したICAフィルタを得られたユーザ方位情報にタグ付けをして保存することでフィルタバンクを作成し,
そのフィルタバンクに存在する話者方位のICAフィルタを初期値として使うことで,
ロボット音声対話におけるユーザの第一発話目の音声認識率の向上を目指す.
また,ICAは信号間の独立性のみを用いて分離を行うため,分離信号における順序の不定性の問題(パーミュテーション問題)が生じる.
従って,異なる周波数毎にICAを行う周波数領域ICA (FDICA)では,この問題が生じ,分離信号を大きく歪ませてしまう可能性がある.
本問題を解決するために,ICAにおけるパーミュテーション問題解決法として,音声と拡散性雑音の分離問題に対応させるため,
ガンマ分布に分離信号をフィッティングさせる方法を提案する.
シミュレーション実験により,ICAに基づくリアルタイム音声対話ロボット雑音抑圧において,提案法が音声認識率を向上できることが確認できた.