Authorship Identification for Heterogeneous Documents

最終更新日: 2002-02-08

日本語に関する著者識別研究は、文学作品に対して主に行われてきた。本研究では、機械学習手法(Support Vector Machines)を用いてメーリングリストの著者識別を行った。また、メーリングリストのデータで学習した識別器によって、Webの文書の著者識別を試みることで異なるタイプのドキュメントに対する性能を調べた。この際、従来から使われていた単語N-gramとともに、データマイニング手法(PrefixSpan)によって抽出された単語の連続パターンを素性に用いることでより高い性能が得られた。

yuuta-t@is.aist-nara.ac.jp