NAIST-IS-MT651147: Noah Evans

Cocytus:様々なデータ形式に対応する並列自然言語処理環境

Noah Evans (0651147)

自然言語処理は岐路に立たされている。言語資源データの規模が大きくなるにつれて、大規模データを処理するだけの高速な処理が求められているが、現在の言語処理ツールは十分に速いとは言えない。計算量的が大きな統計的言語処理アルゴリズムを適用する際には、このツールが高速でないことが大きな問題となる。大規模データ上で言語処理のための計算を行うための計算機環境が求められている。

現在の言語処理ツールはこのスケーラビリティの問題を解決しようと努力している。しかしながら、個人が持てるだけの計算機資源で効率的な利用が可能な方法というものは提案されていない。

本論文では、このスケーラビリティの問題を解決する言語処理用のソフトウェア環境 Software Architecture for Language Engineering (SALE) を開発する。SALE は、計算方法や言語資源をトランスペアレントに表現し、大規模データに対する言語処理を簡単化する。SALE は 2 つのシステムからなる。1 つは様々な言語資源の文字コードやフォーマットを UTF-8 の TreePath フォーマットに変換するツール群である。もう 1 つは、異なる OS 上で利用可能な、様々な計算機資源上で、処理を分散化する MapReduce 並列アルゴリズムの実装である。これにより、様々なフォーマットのデータを、大きなデータで処理することが可能になる。

最後に我々は大規模データの処理を扱う 2 つのツールとの比較を行った。小規模データに対しては、これらのツールより遅いが、大規模データに対しては、提案手法の方が良いことを実験により示した。