高精度な画像認識が実現可能な Convolutional Neural Network(CNNs)を組み込み機器に搭載することが期待されている. ただし,CNNsでは多くの計算が必要であり,従来の機器に搭載されているCPUやGPUでは時間がかかり過ぎる. これに対し,CNNsの計算に特化したアクセラレータ(Domain Specific Accelerators (DSAs))が多数報告されている. しかし,微細化によるコストダウンの恩恵がなくなった現状においてLSI開発費の回収を図るには,様々なメモリ参照パターンに対応できるアクセラレータが望ましい.
そこで,本研究では,様々な離散ステンシル計算を効率よく計算することを目的に開発したEMAXVを改良したEMAXVRを提案する. EMAXVRは,ローカルメモリを備えるCGRA(Coarse Grained Reconfigurable Architecture)を採用したプログラマブルアクセラレータのEMAXVに対して, CNNsの計算を効率化するために,1)多重ループ制御機構,2)マルチディレクションブロードキャストバスと 3)スクラッチパッドメモリを搭載した.
その結果,CNNsのAlexNetとVGG16の畳み込み層の計算を行った時に,ARM CoretexA9に比べて60倍以上,Vivante GC2000+に比べて約20倍高速に計算できることを確認した. さらに,DSAsと比較して,計算性能指標である演算器利用率が18%低いものの,消費電力指標である計算回数に対するDRAMアクセス量が同等にまで迫れることを確認した.