機械学習での活用を目的とし,膨大なセンサが収集した一次元データをクラウドセンターに 集約し,学習・推論するシステムが多く報告されている.ここで,エッジデバイスには 低コストかつ低電力,高効率な計算基盤が求められている. そこで,演算器を格子状に配置するシストリックアレイ・アーキテクチャが注目されているが, エッジ側においては,要求性能に応じたスケーラビリティが求められる一方,コスト削減のために 外部メモリバスの増設が容易ではない. また,格子構造のまま実装すると長距離配線や 配線混雑が動作周波数および面積効率の低下をもたらし,パイプライン実行を妨げてしまう. さらに,複雑なデータ参照パターンを持つ演算の場合,外部メモリ参照が増加し,ローカルメモリ (LMM)の再利用 効率の悪化や読み出しの遅延などが問題となる. 最後に,最内ループの高速化だけではベクトル長の短い行列積や畳み込み演算の高速化に向かない など解決すべき課題は多い. 本発表では,上記課題を改善しつつ,外部メモリインターフェースを増やすことなく マルチチップ化可能なシストリックアレイであるIn-Memory Accelerator eXtension (IMAX) を提案する. まず,複数の外部メモリバスや高機能なDMAマスタを持つことによる消費電力の増大化を改善するための マルチチップカスケード接続機構を提案する. 次に,二次元格子構造による長距離配線や配線混雑を改善し,複雑なデータ参照パターンを持つ演算への対応を可能とする 列マルチスレッディング,そして読み出し遅延を改善するチップ内バス並列化を提案する. 最後に,ベクトル長が短い演算に対しても十分な性能を出すことを可能とする多重ループ一括実行機構を 提案する. このIMAXのプロトタイプシステムをFPGA上に実装し,スター型,ツリー型,デイジーチェイン型の3種のマルチチップ 構成を形成し,評価する.評価方法は行列積や畳み込み演算,Light-Field画像処理,ステンシル演算などから成る10種の評価アプリケーションを 実行することにより,最大4チップで評価する.また,デイジーチェイン型においては,最大8チップでの評価を加えて行う. 評価の結果,最大性能ではIMAXの1チップ構成と比較して,スター型,ツリー型,デイジーチェーン型の4チップ構成はそれぞれ 2.9倍,2.69倍,2.54倍の実行性能を得られることが明らかとなった.また,デイジーチェーン型の最大8チップ構成の評価では最大2.9倍(行列積,7チップ接続時)となった. 加えて,畳み込み演算では5チップ接続,Light-Field画像処理では2チップ接続,ステンシル演算では大気シミュレーションとして用いられるgrapesは5チップ接続, その他のステンシル演算では2チップ接続が最も高速であった.行列積や畳み込み演算のようにチップ間共有データが多いとマルチチップ化の 効果が大きく,デイジーチェン型においても安定した性能を出すことができるが, ステンシル演算のように単純な空間分割による演算ではマルチチップ化の効果が小さく,スター型やツリー型の方がオーバーヘッドが小さく性能が出しやすい. しかし,デイジーチェーン型においてもエッジ向けGPUであるJetson TX2と 比較して,ステンシル演算(resid)実行時には最大5.4倍の実行性能を出しつつ,他のアプリケーションにおいても高い実行性能を実現することができた. 結論としては,電力制約下にあるエッジデバイス用途を前提とし, 限られたメモリバンド幅であるデイジーチェーン型においても十分な性能が出せることが明らかとなった.