Web文書の符号系及び使用言語の自動識別

関 慶妍(9751204)


WWWでは、様々な符号系を使った様々な言語による文書が提供されている。一般に、こうした文書には、使用言語や符号系についての情報は付与されていない。しかし、クライアントにおける正しい復号、検索システムにおける索引付けなどの要求があり、Web文書の符号系を効率よく検出する方法が必要とされている。本研究では、単純な統計的手法により、Web文書の符号系及び使用言語を自動識別する方法を提案する。

提案手法を説明するために、まず、Web文書の符号系識別の基本知識として、文字符号系について説明し、関連研究を紹介する。そして、符号系及び言語識別に対して、識別モデルに用いられる処理単位について、1バイトと2バイト単位を検討し、1バイト単位を用いた二つの識別アルゴリズムを提案する。

これらの自動識別方法の有効性を検証するために、主に漢字を使うアジア系の符号系を対象とした比較実験を行い、二つのアルゴリズムおよび併用したときの性能について報告する。1954件の漢字系Web文書に対して平均98%以上の正解率を得た。さらに、最短時間で識別できる文量(バイト数)について、実験で考察し、最適なバイト数を観察する。

最後に、従来の研究と比較して、提案手法の特徴をまとめ、本研究に関する、今後の課題について報告する。