日本語史資料を対象とした自動アライメント

山田祐実 (1451117)


近年,日本語研究において,電子コーパスを用いた研究がよく行われている. 電子化されたテキストを用いれば,計算機を用いて簡単に文字列検索を行うことができる. しかし,より高度な検索を行うためには,形態論情報など調査する対象となる情報を付与する必要がある. たとえば,日本語の歴史的コーパスにおいては,原文と訓読文,古典本文と現代語訳の情報を文字単位,単語単位で紐付けることにより,それらの情報を参照できるようにすることが求められている. だが,人手で対応付け作業を行うには量が膨大であるため,可能な限り自動で対応付け(アライメント)できることが望ましい.

本研究では,原文と訓読文の文字同士,古典本文と現代語訳の語同士のアライメントを自動で正確に付与することを目標とする. そこで,既存の自動アライメントの手法を複数試し,『萬葉集』と2つの文学作品(『源氏物語』,『徒然草』)を対象に, 原文と訓読文,古典本文と現代語訳の自動対応付けの性能比較および改良に取り組んだ.