マルチコアプロセッサを考慮した単一ノード故障時における回復時間を最小化するタスクスケジューリング

後藤田 祥平 (1051045)


本発表では,各計算ノードがマルチコアプロセッサであるような並列処理システ ムにおいて,ネットワークコンテンションを考慮したマルチコアプロセッサの 単一停止故障時にリカバリタイムを最小化するタスクスケジューリングアルゴ リズムを提案する.最近開発されたプロセッサのほとんどがマルチコアプロセッ サであり,マルチコアプロセッサが故障した場合はその上で実行されているタ スクをすべてやり直す必要が発生する. このような場合,従来の故障モデルでは対応できない. 本研究では,各計算ノードで従来手法に基づくチェックポインティングを行なう. ひとつのノードで互いに依存した計算を長時間行うとそのプロセッサが故障したときに,チェック ポイントがすべて失われるため,依存関係の最初から計算をやり直す必要が生 じる.提案手法ではこのようなケースが生じないようなタスクスケジュールを 生成する.シミュレーションと実機を使用した実験により提案手法の有効性を示す.