機械学習を用いた歴史的資料への濁点の自動付与

岡 照晃 (1051019)


近年,コーパスを利用した日本語研究が増えつつある. しかし,日本語学や国語学の分野では,古い時代の資料を扱う歴史的研究が現在も大きな 位置を占めている.だが,それらの分野で扱われるような歴史的資料は,コーパスとしての 整備が現代語のコーパスと比べて進んでいないのが現状である. 歴史的コーパスの整備が進まない原因の一つとして,コーパス整備の際の校訂の,作業コ ストが高いことが挙げられる.校訂作業は専門家にしか行えず,作業人員を大量に集めるこ とが難しい.またその反面,作業対象は膨大であるため,作業を完了するまでに非常に時間 がかかる.

そこで本研究では,統計的機械学習手法を用い,歴史的資料の校訂作業を自動化すること を最終的な目的とする.これにより,誰でも簡単に低コストかつ大規模に校訂作業を実施す ることが可能になると考えられる.本論文では,その第1 段階として,校訂作業の中から濁点付与 を取り上げ,自動化に取り組んだ.