データのアクセス頻度の統計に着目したHadoop分散ファイルシステムの性能向上

山本 景 1551114


Apache Hadoopは数千台規模のクラスタを想定した分散処理プラットフォームであり,処理速度の高速化が急務である. Hadoopでは,Hadoop分散ファイルシステム(HDFS)により,複数のノードにわたってデータが保持,管理されている. 先行研究において,Hadoopの処理速度のボトルネックとなる要因がいくつか挙げられている. そのうちの一つが,HDFSにおける,データの配置である. HDFSのデフォルトのデータ配置手法では,全データに対して一律に2個の複製を生成する.このとき,複製配置先のサーバの物理的接続関係や どのデータを優先的に複製すべきであるか,十分に考慮されていると言えない. 本研究では,各データのアクセス頻度が既知であるという仮定のもとで,アクセス頻度が高いと予測されるデータを優先してレプリカ生成することで, ジョブの平均処理時間を改善する手法を提案する. 本研究では,モンテカルロシミュレーションにより,複数の環境設定のもと, HDFSデフォルトの複製生成手法と提案手法を適用した際のジョブの処理時間を比較し,提案手法の有意性を検証する. シミュレーションでは,HDFSの保持するファイルに対する単語検索の実行を想定し.実験ネットワークは,ノードを束ねるラック同士が接続されている, 3層構造のデータセンタネットワークであると仮定する. シミュレーション実験の結果,提案手法は各ラックに搭載されたノードのストレージの総容量が十分であるとき,有意に働くことが明らかになった.