組み込みステンシル計算のためのバースト転送を活用したCGRAの定量的評価

竹内 昌平 (1451067)


ステンシル計算は画像処理や流体計算,機械学習をはじめとする重要なアプリケーションに含まれている計算パターンである.そのため,ステンシル計算の高速処理を目的として,GPUや専用ハードウェアを用いるなど様々なハードウェア構成が提案・実装されてきた. しかしながら,IoTシステムでこれらのアプリケーションを扱う場合,通信量やサーバの負荷を軽減させるために,回路資源の限られた端末デバイスで処理する必要がある.端末デバイスはサーバ上のGPUと異なり,低コスト化のためにメモリチップの数が制限されておりメモリバス幅が小さい.この条件下で高い性能を達成するためには,メモリの持つ高い周波数とデータ転送オーバヘッドの少ないロングバースト転送を活用することが重要である.そこで本稿では,メモリアクセスでロングバースト転送モードを活用することができるメモリ分散型CGRAアクセラレータ,EMAXを提案する. ステンシル計算の性能評価のために,EMAXの実LSIをARM-v7プロセッサとDDR3メモリ,さらにFPGAに接続した試作システムを実装した.評価では,試作システムと組み込み向けGPUであるTegra K1の周波数を揃えて比較を行った.その結果,Tegra K1とは対照的に,EMAXはメモリ周波数を向上させることで理論ピーク性能と同等の性能を達成することがわかった.さらに,演算器数がTegra K1の1/3にも関わらず,EMAXはTegra K1と比較してFd6評価プログラムで最大3倍,Resid評価プログラムで最大4倍の性能を達成し,性能向上の障害となる大きな入力データ量を持つGrapes評価プログラムでも最大4倍の性能を達成した.