部分文書のアクセス権を考慮した構造化文書の検索に関する研究

森本考弘 (9851114)


電子出版やディジタルライブラリの分野では,SGML をはじめとした構造化文 書記述言語を用いて文書の蓄積がなされてきた.一方, World Wide Web (WWW) の世界は,SGML の応用の一つである HTML 文書を中心として発展し てきた.HTML 文書は,その記述性においての自由度が過ぎる面があり,文書 自身の持っている構造情報を手がかりとして検索を行うことは困難であった. このためHTML 文書を主な検索対象とするWeb の検索エンジンでは文字列マッ チングのような手法に頼る部分が多かった.しかし,XML の登場によ り,明確な構造を持った文書が今後増加してくることが予想され,その構造 を利用した検索手法の発展が必要となる. また,文書の構造情報を利用して各種応用プログラムやデータベースを中心とした各種システムと連携することにより,文書の一部分にアクセス権を付与した利用方法が 進むことが考えられる. そこで本論文では,構造化文書を木構造として捉え,それぞれの要素単位で文書の 特徴を抽出し,利用者に対して与えられた文書の各要素のアクセス権を考慮した構造化文書の効果的な検索法について提案する.また,その手法の有用性を実験により検証する.