WWW上からの未知単語の概念の抽出に関わる研究

原田 泰吉 (9651088)


本研究では、WWW上からの未知単語の概念の抽出に関して論ずる。

WWWには大量で広範な情報が存在する。そしてその情報は常に更新され、辞書に載っていない最新の情報も我々は獲得できる。しかし存在する情報が大量なため、人間の情報処理能力だけで獲得することは困難な状況にある。そこでこの大量の情報の中から概念に関する文だけを抽出する技術が必要である。

自然言語処理の分野では、語彙的な知識の獲得に関する研究が幾つか行われている。そこで本研究では、文中に現れる記述的特徴から意味的関係を獲得するという自然言語処理の分野の技術を応用して概念の抽出を試みる。

これにより手作業で抽出した概念と比較してWWWに存在する概念に関する文を分析し、さらにWWW上からの未知単語の概念の抽出方法について論ずる。