DeepBurning: automatic generation of FPGA-based learning accelerators for the neural network family

时间：2022-11-09 13:36:26浏览次数：50

标签：12 based network family 分块 DB LUT AGU 数据

Title

DeepBurning: automatic generation of FPGA-based learning accelerators for the neural network family

Proceedings of the 53rd Annual Design Automation Conference

contribution：

根据Caffe脚本生成RTL加速器代码（same)
on-line控制流实现空间和时间的折叠（具体的算法是啥呢？）
优化输入数据与权重的存储布局，利用存储的局部性实现地址生成单元（具体方式？）

Preliminaries and Observation

包含四层的一个卷积网络

多层感知机(MLP)的硬件加速例子：

Architecture of DeepBurning

组件库

数据驱动相关

时间折叠：单个组件，在不同的时间被不同的网络层复用
空间折叠：单个网络层，拆分成不同的段，在不同的事件共享一个组件

地址生成单元（AGU)

(有点像DMA)

Main AGU：on-chip与off-chip之间的数据通信
Data AGU: 从on-chip内存中取输入数据或特征数据
- 起始地址offset
- 布局：feature=[div_tile_num, width, height, K]
Weight AGU: 从on-chip内存中取权重数据
- weight=[out_channel, kernel_x, kernel_y, div_tile_num, K]

Approx LUT Generation

近似LUT用于实现激活函数，输入放入LUT的索引中，预先存储输出结果，通过存储的有限样本近似激活函数来进行模拟。编译器解析复杂函数，选择采样点，计算Approx LUT中填写的值。

命中LUT的输入就直接输出LUT的结果，否则通过线性插值生成输入的近似结果

Dynamic Control flow

动态控制流：用数据将实例化的IP核连接运行起来，控制从AGU里取数据，放入IP核里进行计算，得到输出数据，通过AGU写入内存，再调用下一个IP核通过AGU取数据运行，反复上述

硬件感知的数据布局

57*57的特征图，12*12的卷积核，步长为4

问题：如果按照行布局，带宽的利用率很低，取一整行，只有前12个数被用到

方法：

特征图分块为大小为12*12的块tile，块中的数据是被连续放在内存中的，所以就利用了数据的局部性
按照步长分区，减少数据访问次数，提高数据的重用。需要进一步使用partition分区将12*12切割成3*3个块，每个块里面有4*4个点，这16个点连续的放在内存中。

具体的局部算法：

k=d，对数据分块，分块大小为k*k
- （s=1怎么办？数据重复访问了）
  - k=d=2: 2 2 2
k!=d, s=cd(k, d) ,数据的分块大小为s*s ，tile可以重用，减少重复访问
- （按照步长分块确实减少了重复的访问，那么数据的重用是否有缓冲区的建立？）
  - k=6,d=4: 2*2 2*2
else：f=cd(k,d,s)，分块大小为k,d,s的公约数。交错布局
- k=12,d=6,s=4，那么f=2，造成了带宽的浪费
  - d=6,f=2: 2*2+2 2+2*2

Evaluation

用于测试的网络模型

一轮前向传播的运行速度的比较：

custom：同一个人手动优化定制的加速模型
CPU：Xeon 2.4Ghz
DB-S: 低资源开销Z-7020
DB-L：高资源
DB：中等资源

比CPU快4.7倍

功耗比较：

DB比custom多1.8倍，DB-L和DB-S和custom差不多，CPU功耗比DB多58倍

精度比较：

和CPU精度差不多，甚至更好（近似技术可能会消除噪声或抑制过拟合）

通常，DB比CPU的差距为1.5%

硬件开销：

标签：12,based,network,family,分块,DB,LUT,AGU,数据
From： https://www.cnblogs.com/xiongyuqing/p/16873302.html

Modeling Relational Data with Graph Convolutional Networks
Schlichtkrull,M.,Kipf,T.N.,Bloem,P.,vandenBerg,R.,Titov,I.,Welling,M.(2018).ModelingRelationalDatawithGraphConvolutionalNetworks.In:,et......
Codeforces Round #740 (Div. 1, based on VK Cup 2021 - Final (Engine)) B
B.UptheStrip考虑dpdp[i]表示当前i位置的cnt考虑转移我们对于第一个操作显然只用维护一个后缀和即可dp[i]+=s[i+1]对于第二个操作也很简单我们知道i的值z除一......
【神经网络架构】EfficientNet: Rethinking Model Scaling for Convolutional Neural
原始题目EfficientNet:RethinkingModelScalingforConvolutionalNeuralNetworks中文名称EfficientNet:反思用于CNNs的模型扩展发表时间2019年5月28......
Sei network 合约开发
1、环境设置exportENDPOINT=tcp://54.67.88.181:26657exportCHAIN_ID=sei-devnet-1 [root@devnewsei]#exportACCOUNT_NAME="nextdao"[root@devnewsei]#seidke......
『论文笔记』Faster R-CNN: Towards Real-Time Object Detection with Region Proposa
FasterR-CNN:TowardsReal-TimeObjectDetectionwithRegionProposalNetworks!文章目录一.FasterR-CNN的思想1.1.R-CNN，FastR-CNN，FasterR-CNN对比......
『论文笔记』(SSPNet)Spatial Pyramid Pooling in Deep Convolutional Networks for V
(SSPNet)SpatialPyramidPoolinginDeepConvolutionalNetworksforVisualRecognition!文章目录一、为什么要固定输入图片的大小？二、SPP-Net是如何调整网......
networkQuality
基本使用networkQuality 是一个命令行工具，需要使用「终端」App（或者你首选的其他终端模拟器）运行。方法是：首先，点按「程序坞」（Dock）中的「启动台」（LaunchPad）图标，在搜索栏中......
论文笔记 - GRAD-MATCH: A Gradient Matching Based Data Subset Selection For Effic
AnalysisCoreset是带有权重的数据子集，目的是在某个方面模拟完整数据的表现（例如损失函数的梯度，既可以是在训练数据上的损失，也可以是在验证数据上的损失）；给出优化目标的定......
论文笔记 - SIMILAR: Submodular Information Measures Based Active Learning In Rea
motivationActiveLearning存在的重要问题：现实数据极度不平衡，有许多类别很少见（rare），又有很多类别是冗余的（redundancy），又有些数据是OOD的（out-of-distribution）。1.不同的......
Batch Normalization: Accelerating Deep Network Training by Reducing Internal Cov
BN层只是从一定程度上解决了梯度衰减的问题但是并没有完全解决如果输入值的差距过大会导致模型加BN层后loss依旧无变化。代码:fromenumimportautofromscipy.ioimpo......