異言語資源を利用した物語自動モチーフ分類

三澤賢祐(1251102)


民俗学・文化人類学の分野では古くから物語同士を比較して分析する研究が行 われてきた.さまざまな時代,国や地域の物語を比較することで,当時の人々の 風習や常識などを考察することができる.この比較には,現在,各物語に付与さ れた「トンプソンのモチーフインデックス」と呼ばれるラベルを用いることが一 般的である.このラベルにより体系的な物語表現ができ,効率的な分析を可能に する.しかし,人手による物語へのラベル付与作業はコストが高く,ラベル付き コーパスが新規で整備されることは稀で,分析ではもっぱらすでにラベル付与が された物語のみで行われている.そこで,機械学習を用いた物語へのラベル付与 が提案された.しかし,実際にはラベル付きコーパスの数はわずかであり,ラベ ルなしコーパスへの自動ラベル付与を考えた時に,既存の教師ありラベル付与の 手法では実用性にかけてしまう.また物語,とりわけ民話・神話は通常,収録さ れた国の言語でのみ記録されており,したがって,ラベル付きコーパスとラベル なしコーパスの言語が違うケースが頻繁に起こりえる.

そこで,本研究では,機械翻訳を利用し,ラベル付きコーパスとラベルなしコー パスの言語が異なる場合でも有効なラベル付与の自動化を最終目的とする.これ により,誰でも簡単に低コストかつ大規模なラベル付与作業が可能になる.