テキスト修辞構造タグ付けの半自動化に関する研究

竹内和広 (9751065)


近年のテキスト処理研究の分野において、 文などのテキスト中の要素間に「詳細化」や「対比」などの 関係を用いてテキストを木構造に分析するテキスト修辞構造情報の 重要性が認識されてきている。 しかし、現在の技術では このようなテキスト修辞構造を完全に自動解析することは 不可能であり、そのような技術を進展させるためにも 基礎データであるテキスト修辞構造データを効率的に蓄積することが 重要になってきている。

行った研究は大きく分けて テキストの修辞構造に対する2つの試みである。 第一に、現在ある程度一般的なテキスト修辞構造の理論であるとされている 修辞構造理論 (rhetorical structure theory以下(RST)) を参考にしたタグ付け体系を試作し、 人間がどのように修辞構造のタグ付けを 行うかその傾向を観察した実験を行った。 発表では、その実験に用いた修辞タグ付けエディタを紹介し、 実験に用いたタグ体系と実験結果を紹介する。

第二に、修辞タグ付け実験の結果をもとに、 テキストの言語情報を用いてテキストの修辞 関係における隣接関係を自動的に解析をする試みを紹介する。

最後に、 本研究では、70\%程度の正解率を達成する規則を獲得することができた。 そこで、今後どのように修辞タグ付け支援環境を構築して行くかを紹介する。