類似用例取得を考慮したパラレルコーパスからの用例翻訳向け言語資源の構築

福井 健司 (0551103)


近年,機械翻訳は大規模なパラレルコーパスを利用したコーパスベース翻訳が注目されており,その実用性も数多く報告されている. そのなかで本研究は,コーパスベース翻訳の1つである用例翻訳(Example Based Machine Translation:EBMT)を研究対象としている. 用例翻訳の基本的な考え方は用例コーパスから入力文の類似用例を取得し,それらを編集することで翻訳を行なう. 用例翻訳における重要点の一つとして,いかにして入力文の翻訳に適切な用例を取得するかが挙げられる. 計算機が適切な用例を取得するための1つの方法として,計算機に人間と同等の知識体系を持たせることが挙げられ,従来ではシソーラスがよく利用されている.

しかし,既存のシソーラスは単一言語のみを考慮して構築されたものがほとんどであり,そのようなシソーラスは多言語間での概念相違を考慮しておらず,又,概念体系も固定的であり,結果として入力文の翻訳に適切でない用例取得や入力文の翻訳に有効な用例の取りこぼしなどを引き起こし,翻訳精度を落としかねない要因になる.

そこで,本研究では上記の問題解決の為に,単一言語コーパスからではなくパラレルコーパスの多言語情報を利用することで類似用例取得を考慮した用例翻訳向け言語資源の構築を目指す. 本研究の言語資源はある語とある語の関連性を考慮して構築される関連語対集で構成されており,関連性は類似用例取得を可能とする指標として定義する. そして,そのような関連語対集をパラレルコーパスから自動的に構築する手法を提案する. 具体的には,パラレルコーパスから関連語対の候補を生成し,それらの関連性をパラレルコーパスにおける各言語の周辺文脈を指標として求めることで構築した.

既存のシソーラスとして利用した角川類語新辞典と構築した関連語対集のそれぞれを用いて用例翻訳実験を行なったところ,角川類語新辞典と関連語対集を並行活用することで翻訳カバレッジは約4〜5%の改善が期待できた. 又,翻訳品質を計るBLEUとWERを評価したところ,角川類語新辞典を利用するよりも関連語対集を利用する方が良好な翻訳結果を得ることができた. 以上の結果より,構築した関連語対集を利用することの有効性を示した.