英日同時通訳システムのための\\疑似同時通訳コーパス自動生成

二又 航介(1811241)


異なる言語を話す人々のコミュニケーションを支援する技術として,同時通訳システムの研究開発が行われている. 同時通訳システムは,原言語の入力文の終了を待たずに目的言語への訳出を開始する翻訳システムである. 同時通訳システムを介したコミュニケーションでは,翻訳の遅延が円滑なコミュニケーションの大きな障害となるため,遅延を最小限にしつつ正確に部分訳出を行う必要がある. 特に英語と日本語のように語順が大きく異なる言語間の同時通訳では,訳出開始までの遅延が大きな問題となる. 一方で原言語の語順に近い形で訳出を行うことができれば,遅延を少なくすることができる. 同時通訳システムの学習には通常,機械翻訳システムの学習と同様に対訳コーパスが用いられるが,入力文が完結する前に目的言語の部分訳出を行った文から構成される同時通訳コーパスを用いることができれば,入力文を小さな部位に区切り逐次訳出できるため,訳出を終えるまでの遅延を少なくすることが可能である. しかし,現在利用可能な同時通訳コーパスの量は非常に少ないため,大量の同時通訳コーパスを利用して同時通訳システムを訓練させることは現実的ではない. 本研究では,英日対訳コーパスから疑似英日同時通訳コーパスを自動生成する手法について提案する. 提案手法では事前並べ替え,及び教師なし機械翻訳を用いることで,対訳コーパスの日本語文から疑似同時通訳コーパスを自動生成する. 実験の結果,提案手法によって生成された疑似同時通訳文は同時通訳らしい特徴を持つことが明らかになった.