日本語学習者の作文コーパス調査研究のための誤用タグアノテーションの自動化に向けて

大山浩美 (0661003)


近年,様々な種類の言語学習者コーパスが収集され,言語教育の調査研究に利用されている.ウェブを利用した言語学習アプリケーションも登場し,膨大な量のコーパスを収集することも可能になってきている.学習者が生み出した文には正用だけでなく誤用も含まれており,それらの大規模な誤用文を言語学や教育などの研究に活かすことが重要である. 日本語教育の現場では,学習者の書いた作文において学習者が誤りを犯す原因を追及し,誤用を犯さないようにフィードバックとして活かしたい需要があるが,大規模な言語学習者コーパスを調査分析するのは困難である.研究に活かすために,学習者コーパス内の学習者の書いた誤用を検出し,それらに誤用の種類を明示する誤用タグを振り,統計的に分析することが重要である.そのような理由から,本研究では以下の作業,実験を行い,以下のようなことが分かった.
1. 関連する学習者コーパスで使用されている誤用タグについて調査を行った.

2. 現存する誤用タグの長所短所を考慮し,汎用性があるような誤用タグを作成した.

3. それらの誤用タグを付与した誤用コーパス(NAIST誤用コーパス)を作成した.

4. NAIST誤用コーパスを用い,日本語学習者の格助詞の誤用について調査した.その助詞誤用頻度分析の結果、助詞を脱落させる誤りが最も多いことがわかった.さらに、助詞「の」や「は」において学習者の習得の難しさが見られた.

5. NAIST誤用コーパスにおいて機械学習法を用いた誤用タイプ別自動分類実験を行い,かつアプリケーションに堪えうる適合率を実現した(8割程度).

6. 誤用タイプ別自動分類実験をドメイン外のコーパスにおいても行ったが,NAIST誤用コーパスでの実験に比べると精度が14.9\%ほど低かった.

7. 新聞コーパスにおいて格助詞「を」の正用例を抽出する実験を行い,「を」の正用モデルを作り,そのモデルを用い,学習者のコーパスで誤用例を判定できるかどうかの実験を行った.100事例の場合、F値で50\%,200事例の場合、F値で53.9\%の精度で判定できた.

以上の作業を行い,学習者コーパスの整備をすることにより,言語教育の調査研究に関して新しい知見が得られた.