時分割多重実行型線形アレイアクセラレータの開発と評価

菊谷 雄真(1751033)


ビッグデータやIoTという言葉が流行する昨今,膨大な数のセンサが収集した一次データをクラウドセンターに集約し学習・判断するシステムが次々に発表されている. エッジには低価格組込用マイクロプロセッサ,クラウドセンターにはGPUや大規模Field Programmable Gate Array (FPGA) を搭載することが主流である. しかし,このような中央集権型システムでは,ネットワークとクラウドセンターの負荷増大が招く応答性や可用性の低下が問題となる. そのため,エッジが学習・判断の一端を担い,それらの負荷を軽減することが必要である. そこで,エッジに適合する低価格・低電力・高効率な計算基盤が希求されており,盛んに研究されており, 専用ハードウェア (Domain Specific Accelerator: DSA) やFPGAによる実装方法が数多く提案されている. しかし,前者は汎用性に欠け大量生産によるコストダウンが見込めず,後者は動作周波数が一桁低いという構造的問題を抱えている. 上述の問題を解決できるアーキテクチャとして,Coarse Grain Reconfigurable Architecture (CGRA) 注目されている. ただし,従来型CGRAでは,2次元構造が基本であるため配線混雑が発生しやすく,小型化が難しい. また,要求性能に合わせてスケーラブルに性能向上するには,GPUを始めとするDMA Masterアクセラレータと同様に, チップ数の増加に見合った十分な帯域の外部メモリインターフェースを備える必要があり,同様に小型化が難しい.

本研究では,CGRAの演算ユニットを時分割4重実行と浮動小数点演算パイプラインの導入によって性能低下を抑えつつ1次元構造化(演算器数は1/4)し, さらに,外部メモリインターフェースを増やすことなくマルチチップ化可能なリニアアレイアクセラレータIn-Memory Accelerator eXtension (IMAX) を提案する. まず,FPGA上にプロトタイプシステムを開発し,動作周波数が2次元構造の同等機能CGRA (EMAXV) の50MHzに対し,150MHzに向上したことを確認した. そして,プロトタイプを用いて実アプリケーション (行列積,畳み込み演算,Light-field画像処理) の実行性能を評価した. その結果,IMAXはEMAXV対して4.1, 7.3, 3.7倍の実行性能を有することが明らかとなった. さらに,プロトタイプにおけるボード間通信のボトルネックを解消した場合,EMAXVに対して14.0, 11.0, 11.3倍の実行性能となる見積もりが得られた. 加えて,4チップ構成の見積では,1チップ構成に対して,プロトタイプの場合で最大3.3倍, ボトルネックを解消した場合の見積もりで最大2.5倍のスケールアウトが可能であるという見積もりが得られた. 最後に,28nmテクノロジを利用した論理合成による回路面積の見積もりを行い, EMAXVの面積27.40mm2に対し,8.40mm2で実装できることが明らかになった. ASICにおいても同様の周波数比となることを仮定した場合,面積当たりピーク性能は,EMAXVに対し2.44倍となった.