Abstracts of Doctor Thesis 2000
平成12年度 情報科学研究科 博士学位論文内容梗概
Last Update : 2000.8.23
9761021 前田亮
「Studies on Multilingual Information Processing on the Internet」
世界的なインターネットの発展に伴い,Web文書に用いられる言語も様々な言語に広がりつつある.しかしながら,これらの多言語文書群を統一的に扱う検索システムの実現には様々な課題がある.利用者の観点から見ると,一般的なインターネットの利用に不可欠なテキスト処理機能は,表示,入力,検索の三つである.しかしながら,テキストの表示や入力に必要な文字フォントや入力メソッドが必ずしもインストールされているとは限らない.一方,システム側の観点から最も面倒な問題は,多くのWeb文書には用いられている言語や符号系のメタ情報が含まれていない点である.これは,Webブラウザ上での文字化けや,Web検索エンジンにおける誤った索引付けの原因となる.また,利用者の母国語以外の言語で記述されたWeb文書を検索したい場合,ある言語で書かれた文書群を別の言語による問合せで検索する言語横断情報検索が有用であるが,多様な言語およびドメインの文書が混在する Web文書に対して相応の検索性能を得ることは困難である.本論文では,これらの問題点に対して次のような解決策を提案する.
1. クライアント側にインストールされているフォントや入力メソッドに依存しない,
多言語テキストの表示および入力機能
2. 統計的手法とヒューリスティクスの併用による,Web文書の言語および符号系の自
動識別アルゴリズム
3. Web検索エンジンから得られた単語共起情報に基づく,多様なドメインのWeb文書
に適した言語横断情報検索手法
これらの三つの手法を統合して,インターネットに特有の多言語情報処理に
関わるいくつかの問題点に,一定の解決策を提示することができた.
情報科学研究科 専攻主任