クラウドプラットフォームにおける継続的にエラーイベントを発生させるタスクの解析及びリソース浪費削減手法の評価

萬代光治(1651101)


Google Cloud Platform やMicrosoft Azure に代表されるクラウドプラットフォームは,ハードウェアへの投資や保守にかかるコスト削減や,用途に応じたリソースの拡大や縮小が容易であるという利点を持ち,需要は高まりつつある. しかしながら大規模なプラットフォームでは,多様な種類のジョブやハードウェアが混在するために,スケジューリングが複雑になることがある. Google 社は実際に運用されたプラットフォームのトレースデータである Google Cluster Usage Trace を公開している. このデータを解析した既存研究によるとクラウドプラットフォームの課題として,一部のジョブやタスクが継続的にエラーと再実行を繰り返すことにより,計算リソースとスケジューラへの負荷を増大させることを挙げている. 本論文ではまず, Google Cluster Usage Trace に含まれるジョブやタスクの実行履歴を解析し,投入されたジョブやタスクの実行状況や持続時間の傾向について示す. そして計算リソースの利用記録を解析し,ジョブやタスクの特徴とリソース利用率の関係を明らかにする. 次に過剰に計算リソースやスケジューラに負担をかけるタスクに着目し,実行状況や計算リソースの利用記録からそれらに共通する性質や傾向を解析する. それらの解析に基づいて,タスク実行をエラーの発生回数に基づいて,強制的に中断することで計算リソースの浪費を削減する手法を提案する. 提案手法では最大でCPUの7% ,メモリの4% のリソース利用を節約できるが,一方で正常終了するタスクの0.06% を誤って中断することがあることを示す. そこでエラーの発生回数に加えエラーの内容に着目して,提案手法を改善したところ,リソース節約の効果はCPUで15% ,メモリで8% 悪化したが,一方で正常終了するタスクの中断は0.02% まで改善されることが判明した.