現在の言語処理ツールはこのスケーラビリティの問題を解決しようと努力している。 しかしながら、個人が持てるだけの計算機資源で効率的な利用が可能な方法とい うものは 提案されていない。
本論文では、このスケーラビリティの問題を解決する言語処理用のソフトウェ ア環境 Software Architecture for Language Engineering (SALE) を開発す る。SALE は、計算方法や言語資源をトランスペアレントに表現し、大規模デー タに対する言語処理を簡単化する。SALE は 2 つのシステムからなる。1 つは 様々な言語資源の文字コードやフォーマットを UTF-8 の TreePath フォーマッ トに変換するツール群である。もう 1 つは、異なる OS 上で利用可能な、様々 な計算機資源上で、処理を分散化する MapReduce 並列アルゴリズムの実装で ある。これにより、様々なフォーマットのデータを、大きなデータで処理する ことが可能になる。
最後に我々は大規模データの処理を扱う 2 つのツールとの比較を行った。小 規模データに対しては、これらのツールより遅いが、大規模データに対しては、 提案手法の方が良いことを実験により示した。