映像データベースの音声情報による話者索引付けの自動化について

張 宏斌 (9751120)


計算機とネットワーク技術の発展により、映像情報をデジタル化して、映像データ ベースを構成することが可能になった. 映像データベース構築における重要な作業の一つは,音声や画像による索引付けであ る. 従来,このような索引付けは手作業に頼ることが多かったが,音声,画像認識 の発達した技術を,映像データベース独自の要請に配慮しつつ,索引付けに応用する ことが可能になりつつある.ここでは,従来の音声認識技術を活用しながら,映像情 報の索引付けに適した方式を検討し,実験したので,報告する.すなわち、GMM (Gaussian Mixture Model)を用いた話者認識を利用し,従来の話者認識のように予 め話者モデルを生成しておくのではなくて,話者モデルを生成しつつ話者認識を行な い,話者の索引付けを自動的に行う手法について論じ,実験結果を報告する.