品詞情報付きDTDを用いた学術論文テキストのSGMLタグ付け

岩田 真琴 (9551009)


 研究活動において、学術論文は重要な情報源の一つである。しかしその冊数は 膨大なものであるため、人手による管理には限界が生じる。しかし、これらの 管理をコンピュータ上で行えば、迅速に必要な情報を入手することが可能であ る。

 電子化された文書をデータベース化する記述言語として、文書の論理的な構 造を記述できるSGML(Standard Generalized Markup Language)が普及しつつ ある。SGMLは電子図書館や電子出版などの広い用途があるが、タグ付け作業 にはSGMLの専門的な知識を持った多くの人手を要する。しかしながらSGMLタ グ付けの環境は整っていないのが現状である。

 そこで本研究では、電子化された文書に機械的にSGMLタグを付与するシステ ムを提案する。 SGMLタグ付けに用いるDTD(Document Type Definition)に、 機械的作業の手がかりとして品詞情報を付与することで、正しくタグ付け が行なわれる。本発表では、品詞情報付きDTDを用いたタグ付けシステムに ついて説明し、その結果、良好なタグ付けが可能であったことを述べる。

 また、学術論文をサーベイする際、文章中で引用されている文献の情報を即 座に得るために、参考文献へのリンク機構があれば望ましい。そこで参考文献 へのリンク機構を実現するために、学術論文誌13誌(4219ページ)に渡り文献の 引用パターンを調査した。その結果をまとめ、考察を述べる。