提案手法を説明するために、まず、Web文書の符号系識別の基本知識として、文字符号系について説明し、関連研究を紹介する。そして、符号系及び言語識別に対して、識別モデルに用いられる処理単位について、1バイトと2バイト単位を検討し、1バイト単位を用いた二つの識別アルゴリズムを提案する。
これらの自動識別方法の有効性を検証するために、主に漢字を使うアジア系の符号系を対象とした比較実験を行い、二つのアルゴリズムおよび併用したときの性能について報告する。1954件の漢字系Web文書に対して平均98%以上の正解率を得た。さらに、最短時間で識別できる文量(バイト数)について、実験で考察し、最適なバイト数を観察する。
最後に、従来の研究と比較して、提案手法の特徴をまとめ、本研究に関する、今後の課題について報告する。