演算器アレイ型アクセラレータにおけるメモリアクセス機構の最適化

下岡 俊介 (1051054)


近年,動作周波数向上による高性能化は許容できない消費電力の増大を招くため, 動作周波数は頭打ちになった.よって,動作周波数向上ではない 新しい仕組みで高い電力効率を実現するアーキテクチャが求められている. 粗粒度リコンフィギャラブルアレイ(CGRA)は,プログラムの最内ループの命令列を2次元アレイ状に配置 した演算器による並列処理によって性能向上させる. また,CGRAの演算器を2次元アレイ状に並べた構成は専用ハードウェアに近いため,高い電力効率を実現している. しかし,演算器間のデータパスを構築するために特殊な命令スケジューリングを必要とするため, バイナリ互換性がなく,専用コンパイラの開発が必須となる. そこで,CGRAの長所を持ちつつバイナリ互換性の課題を解決するために, 演算器アレイ型アクセラレータ(LAPP)が提案されている. LAPPは既存VLIW命令で記述されたプログラムの最内ループを演算器アレイに写像し, 必要最小限のユニットだけで実行することにより,高性能と低消費電力を両立している. しかしLAPPをLSI化するにあたり,搭載可能なアレイ段数はチップ面積により決定されるため, アレイ実行可能な命令列の長さはチップ面積に制限される. また,ロード命令の実行にはアドレス計算とタグ比較で2サイクルかかるため,アレイ段を2段分必要とし, 命令列のアレイ実行化の制約になっている. 本研究では,写像されるロード命令とローカルバッファのウェイを対応させ, 各アレイ段のロード/ストアユニットのアドレス計算とタグ比較を削減すること, および,レジスタに置き換えることで,ロード命令のレイテンシを削減する メモリアクセス機構の最適化手法を提案する. 提案手法をHDLにより実装し,回路規模,遅延時間および消費電力を評価した.評価の結果, ローカルバッファの要素が1ウェイあたり32ワード以内であれば, ロード命令のレイテンシを2から1へ確実に削減可能であることが判明した. また,回路規模を14%,消費電力を15%削減することができた.