arXiv:1506.01497
参考:
初读
目前已经了解了目标检测最基础的3个算法:R-CNN、SSPNet和Fast R-CNN,后两者都是基于R-CNN的优化,所以说R-CNN是深度学习目标检测的开山之作。
R-CNN存在不足之处,1张图片使用SS(Selective Search)算法生成的2k个候选框分别输入CNN提取特征值,时间开销太大,且要求固定图片输入尺寸,后两者对于R-CNN的优化之处在于
-
SPPNet
只对原始图片进行1次卷积,将候选框映射到特征图上,再进行后续处理
提出SPP layer,可以处理任意大小的图片
-
Fast R-CNN
将提取特征值、分类、bbox整合,形成单阶段模型
简化SSP layer,提出RoI pooling layer
在分类和bbox 回归时使用全连接网络,而不是之前的SVMs
3个模型共同之处时他们的第1步都是使用SS算法生成候选框,论文提出这个操作是整个模型的瓶颈,提出了RPN(Region Proposal Network),可以实现几乎没有时间开销的情况下生成高质量的候选框。将RPN技术和Fast R-CNN结合提出了Faster R-CNN模型,实现实时(Real-Time)目标检测算法。
提出RPN是论文主要的贡献,另外还有一些细节贡献
- 提出了anchor boxs(锚框)的概念
- RPN和Fast R-CNN共享卷积层
- 将候选框的选取和后面的特征提取、分类和bbox回归组成一个统一整体
摘要中提到了注意力机制(attention mechanisms),还不了解
再读
Faster R-CNN的整体架构如下图所示
RPN部分具体结构如下图所示
整体架构,实现了端到端(end-to-end),将候选框的选取也作为网络的一部分
标签:Real,Towards,Faster,Fast,候选框,bbox,CNN,RPN From: https://www.cnblogs.com/dctwan/p/17118529.html