Cocytus:様々なデータ形式に対応する並列自然言語処理環境

Noah Evans (0651147)


自然言語処理は岐路に立たされている。言語資源データの規模が大きくなるにつ れて、 大規模データを処理するだけの高速な処理が求められているが、 現在の言語処理ツールは十分に速いとは言えない。 計算量的が大きな統計的言語処理アルゴリズムを適用する際には、 このツールが高速でないことが大きな問題となる。 大規模データ上で言語処理のための計算を行うための計算機環境が求められている。

現在の言語処理ツールはこのスケーラビリティの問題を解決しようと努力している。 しかしながら、個人が持てるだけの計算機資源で効率的な利用が可能な方法とい うものは 提案されていない。

本論文では、このスケーラビリティの問題を解決する言語処理用のソフトウェ ア環境 Software Architecture for Language Engineering (SALE) を開発す る。SALE は、計算方法や言語資源をトランスペアレントに表現し、大規模デー タに対する言語処理を簡単化する。SALE は 2 つのシステムからなる。1 つは 様々な言語資源の文字コードやフォーマットを UTF-8 の TreePath フォーマッ トに変換するツール群である。もう 1 つは、異なる OS 上で利用可能な、様々 な計算機資源上で、処理を分散化する MapReduce 並列アルゴリズムの実装で ある。これにより、様々なフォーマットのデータを、大きなデータで処理する ことが可能になる。

最後に我々は大規模データの処理を扱う 2 つのツールとの比較を行った。小 規模データに対しては、これらのツールより遅いが、大規模データに対しては、 提案手法の方が良いことを実験により示した。