NAIST-IS-MT9751120: 張宏斌

映像データベースの音声情報による話者索引付けの自動化について

張宏斌 (9751120)

計算機とネットワーク技術の発展により、映像情報をデジタル化して、映像データベースを構成することが可能になった．映像データベース構築における重要な作業の一つは，音声や画像による索引付けである．従来，このような索引付けは手作業に頼ることが多かったが，音声，画像認識の発達した技術を，映像データベース独自の要請に配慮しつつ，索引付けに応用することが可能になりつつある．ここでは，従来の音声認識技術を活用しながら，映像情報の索引付けに適した方式を検討し，実験したので，報告する．すなわち、GMM （Gaussian Mixture Model)を用いた話者認識を利用し，従来の話者認識のように予め話者モデルを生成しておくのではなくて，話者モデルを生成しつつ話者認識を行ない，話者の索引付けを自動的に行う手法について論じ，実験結果を報告する．

映像データベースの音声情報による話者索引付けの自動化について

張 宏斌 (9751120)

張宏斌 (9751120)