免费的数据集
NNIST
0-9 的手写体
28*28
测试功能
CIFAR-10
10个类别
50000张图片
32*32
imageNet
可以实用级别
1000个类别
224*224
120万张训练图像
50000张验证图片
100000张验证图片
网络
AlexNet
ImageNet分类比赛
图片识别率由之前的不过一半到接近80%
卷积神经网络开始得到重视
2017年 识别的错误率在2% 精度超过人类
Net
互连的拓扑结构
Rg:
AlexNet
googleNet
框架
一个“操作系统”
一个函数库
子程序的集合
提供卷积运算
tf
Caffe
深度学习的基元库
特定于低级别的加速器的库
如 cIDNN MKL DLA cuDNN
FPGA
现场可编程门阵列
数电: 0 1 加减法 乘除法
为了解决
设计电路过于复杂
最早的可编程器件(PRD):可以实现简单的可编程
一个窗口 一个编程器 用紫外线照射芯片 在紫外线的照射下可以擦除之前的痕迹
FPGA:
不需要取下芯片 现场可编程
逻辑单元 数百万的
存储器块
特殊功能的应用
FPAG基本单元查找表
基本单元
四输入查找表
四个信号
一个信号的输出
一个逻辑单元可以实现
一个bit的(全加)加减
16个逻辑单元
实现简单的操作系统:
8086(最早的)
80286
80386
FPGA内存块
存储器块
大小不一
读写方式不同:可以两套读写方式
FPGA DSP模块
硬件的
乘累加的模块
节省逻辑单元
速度快
可以量化不同的精度的运算
FPGA 可配置路由
自定义数据路径
可以直接连接至定制或者标准IO接口
FPGA IO和接口
硬核内存控制器
支持连接片外内存(HBM,HMC,..)
英特尔的FPGA产品
MAX Cyclone Arria Stratix
从左至又速度变高 成本变高
采用FPGA定制的硬件所具备的优势
高效处理
精细化处理
低功效
灵活的芯片
支持重新配置
加快上市速度
多种可用I/O标准
FPGA和人工智能的关系
支持灵活控制数据路径
确定的低延时对推理至关重要:汽车自动驾驶
人的反应时间0.25秒
GPU:单指令多数据 装满显存一次执行
数据的延迟很高 吞吐率高 但是运行速度快
提供确定性系统延迟
I/O延迟 + 计算延迟
CPU:
延迟不确定
多任务,中断之类
支持灵活的任意架构:
努力提高网络开发效率 以消除GPU局限性
批处理
降低位宽
稀疏权重
稀疏激活
实现卷积CNN的要求
高吞吐率
多次浮点乘积累加运算
高带宽本都存储,以存储过滤数据以及部分之和
支持不同的拓扑问题的灵活性
压缩算法
H.2265(HEVC)
H.264(AVL)
MPEG-2
开源计算机视觉库(OpenCV)
2500 多个算法与函数
C++ python* java* matlab*接口
使用经过优化的C/C++ 编写 支持OpenCL*
标签:培训,intel,FPGA,卷积,支持,可编程,单元,延迟
From: https://blog.51cto.com/liyunhao/6077007