マルチスレッド化によるシストリックリングアクセラレータの面積削減手法

山野 龍佑(1651118)


機械学習アルゴリズムの成功や,VR技術のコモディティ化が大きな注目を集めている. それに伴い組み込み機器に要求される演算性能が高まっている. 一方で,半導体微細化による周波数向上やコストダウンの恩恵がなくなりつつある. これまで汎用プロセッサが享受してきた周波数向上とマルチコア化による性能向上は今後望めない. DCNNの社会実装に向けてGPUを搭載した大規模サーバで学習を行い, 組み込み機器ではDSAを搭載し認識のみを行う垂直分業が確立しつつある. しかし,DSAはその特性上応用範囲が限定的であり,機械学習アルゴリズムの変化や, 機械学習以外のキラーアプリの登場に対応出来ない問題点がある.

CGRAやシストリックアレイはプログラマビリティを持つアクセラレータとして研究されてきた. しかし構造上の欠点として,配線混雑と演算器およびメモリを使い切ることの困難さが指摘され,面積効率向上が課題であった. 本研究では,シストリックリングアクセラレータであるEMAXVをもとに, マルチスレッド化によるシストリックリングアクセラレータの面積効率向上手法を提案する. 諸手法を適用したマルチスレッドシストリックリングアクセラレータとして IMAX(In-Memory Accelerator eXtension)について説明する. 評価では行列積,3x3畳み込み演算,Lightfield画像処理の3つのアプリケーションについてEMAXVと演算性能の比較を行い, マルチスレッド化したIMAXにおいても同等の演算性能を達成可能であることを説明する. 更に28nmテクノロジを利用した論理合成による回路面積の評価を示し, 最後にIMAXはEMAXVと比べて面積当たり性能を2.25倍から4.34倍改善できることを示す.