近代日本語小説の著者判別技術に関する検討
福岡祐一 (0451105)
文書から著者の特徴を抽出し,分析することにより著者の判別を行う研究は古くから行われている.
近年のコンピュータ技術の発達により大量のデータを計量的に分析することが可能になり,
あらゆる文書に対して,またさまざまな特徴を用いることによって,著者を推定する研究の飛躍的な進歩が見られている.
日本語では従来分かち書きが困難であったために,単語レベルでの特徴抽出は困難であったが,最近では比較的精度の高い形態素解析器の導入により,
多様な著者判別実験が行われるようになってきた.著者別の特徴を抽出するためには,内容に依存せず,かつ出現頻度の高い特徴量が求められる.
そうした目的にかなった特徴量の一つとして助詞の使用分布があげられる.実際,比較的著者の特徴が現われやすいと考えられる小説文だけでなく,
一般人による日記や作文といったものを用いた著者判別実験でも,その有効性が示されている.
また、同様な日本語の著者判別の研究で精度の高い結果が得られた研究に,文字n-gramを特徴量として用いた
近代日本語小説文の著者判別の研究があげられる.こちらはある程度の文書サイズが必要ではあるが,
助詞の分析と違い形態素解析のような文書の事前処理が要らないという利点が挙げられる.
これらの研究をはじめ同様に日本語の文書における著者判別が行われた研究について代表的なものの紹介を行い,用いられている特徴量の有効性について検討を行う.
また,先にも挙げた有効な特徴量の一つである助詞に加え,同じく機能語として文章内容への依存度が低いと考えられる助動詞に注目し,
8人の近代の日本の小説家によって書かれた文章の著者判別実験を行ったので併せて報告を行う.