aved from url=(0092)http://isw3.naist.jp/IS/Local/IsOffice/e-thesis/M/styles/html/mthesis-abstract-template.html --> Shingai Ryuta

Exploration of Divided DCNN for Object Recognition using both Cloud and Edge Computing

新谷 隆太


Modern deep learning has significantly improved the performance and has been used in a wide variety of applications. Since the amount of computation required for the inference process of the neural network is large, it is processed not by the data acquisition location like a surveillance camera but by the server with abundant computing power. As the number of IoT devices increases, traffic congestion and power consumption of server communications are of concern. By processing a part of DCNN on the edge, communication size to be transferred is smaller than the sensor data size. Therefore, I considered dividable network models using edge computing.

In this paper, I have evaluated AlexNet and VGG16 on the divided environment and estimated FPS values with Wi-Fi, 3G, and 5G communication. As necessary conditions, I set FPS to 30 or faster and object recognition accuracy to 69.7% or higher. This value is based on that of an approximation network model. I constructed performance and energy models to find the optimal configuration that consumes minimum energy while satisfying the necessary conditions. When dividing in 5th pooling layer using HEVC, the compressed intermediate data can be reduced by 65.5% with AlexNet and 49.7% with VGG16 than the compressed sensor data. From the perspective of FPS, accuracy and energy, I found the following. When it is AlexNet, it is most efficient to execute all inference processing at the edge computing (Energy consumed by Wi-Fi, 3G, and 5G: 0.165 [J/frame]). When using VGG16, it is most efficient to execute all the inference processing on the server (Energy consumed by Wi-Fi and 5G: 1.78 [J/frame], Energy consumed by 3G: 1.79 [J/frame]).

最近の深層学習はパフォーマンスを大幅に向上させ、さまざまな場面で利用されている。ディープニューラルネットワークの推論処理に必要な計算量は大きいため、 監視カメラなどのようなデータ取得場所ではなく、豊富な計算能力を持つサーバーによって処理される。IoT デバイスの数が増加していく中、サーバーにおける通信 のトラフィック輻輳や消費電力が問題として懸念されている。エッジ側でDCNN の一部を処理することにより、転送するデータの通信量はセンサーデータの量よりも 小さくなるため、エッジコンピューティングを用いた分割可能なネットワークモデルを検討した。

本稿では、分割環境によるAlexNet とVGG16を評価し、Wi-Fi、3G および5G 通信でFPS を推定した。必要な要件として、FPS を30 以上に設定し、物体認識精度を 69.7%以上に設定した。この値は、近似ネットワークモデルの値に基づいて決定されている。分割可能なモデルを構築して、必要な条件を満たすと同時に最小の エネルギーを消費する最適な構成を発見した。HEVCを使用して5 番目のpooling層で分割する場合、圧縮後のセンサーデータよりも圧縮後の中間データのほうが AlexNet だと65.5%削減でき、VGG16 だと49.7%削減することがわかった。FPS、精度および消費エネルギーの観点から、次のことが判明した。AlexNetの場合、 すべての推論処理をエッジコンピューティングで実行するのが最も効率的であり(Wi-Fi および 3G、5G での消費エネルギー:0.165 [J/frame])、VGG16を使用する 場合、サーバーですべての推論処理を実行するのが最も効率的であることが判明した (Wi-Fi および5G での消費エネルギー:1.78 [J/frame]、3G での消費エネル ギー:1.79 [J/frame])。