しかし,既存のシソーラスは単一言語のみを考慮して構築されたものがほとんどであり,そのようなシソーラスは多言語間での概念相違を考慮しておらず,又,概念体系も固定的であり,結果として入力文の翻訳に適切でない用例取得や入力文の翻訳に有効な用例の取りこぼしなどを引き起こし,翻訳精度を落としかねない要因になる.
そこで,本研究では上記の問題解決の為に,単一言語コーパスからではなくパラレルコーパスの多言語情報を利用することで類似用例取得を考慮した用例翻訳向け言語資源の構築を目指す. 本研究の言語資源はある語とある語の関連性を考慮して構築される関連語対集で構成されており,関連性は類似用例取得を可能とする指標として定義する. そして,そのような関連語対集をパラレルコーパスから自動的に構築する手法を提案する. 具体的には,パラレルコーパスから関連語対の候補を生成し,それらの関連性をパラレルコーパスにおける各言語の周辺文脈を指標として求めることで構築した.
既存のシソーラスとして利用した角川類語新辞典と構築した関連語対集のそれぞれを用いて用例翻訳実験を行なったところ,角川類語新辞典と関連語対集を並行活用することで翻訳カバレッジは約4〜5%の改善が期待できた. 又,翻訳品質を計るBLEUとWERを評価したところ,角川類語新辞典を利用するよりも関連語対集を利用する方が良好な翻訳結果を得ることができた. 以上の結果より,構築した関連語対集を利用することの有効性を示した.