首页 > 其他分享 >Faster RCNN 论文阅读

Faster RCNN 论文阅读

时间：2023-03-04 11:11:06浏览次数：46

标签：Faster anchors positive 论文网络 pooling RCNN proposal RPN

1.网络架构

1677898772354

1677898794137

VGG16网络

anchors:人工放上去的

RPN对anchors进行二分类，正样本，负样本

RoIP：前面的框框已经圈出目标，但还不知道具体属于哪个类，它就是干这个工作的

2.VGG网络

VGG网络可以任意替换其他的任意神经网络，resnet等

以VGG网络为例：

首先缩放至固定大小MxN。VGG网络输出Feature Map
放入共享Conv layers
RPN计算proposals
Roi Pooling层则利用，proposals从feature maps中提取proposal features
送入后续全连接和softmax网络作classification。

1677898815454

3.共享卷积层

以VGG网络为例：

Conv layers部分共有13个conv层， 13个relu层，4个pooling层。
所有的conv层都是：kernel_size=3，pad=1， stride=1
所有的pooling层都是：kernel_size=2，pad=0， stride=2
在Faster RCNN Conv layers中对所有的卷积都做了扩边处理（ pad=1，即填充一圈0），导致原图变为 (M+2)x(N+2)大小，再做3x3卷积后输出MxN 。
pooling层kernel_size=2，stride=2。这样每个经过 pooling层的MxN矩阵，都会变为(M/2)x(N/2)大小。
一个MxN大小的矩阵经过Conv layers固定变为 (M/16)xN/16) （注：有四层pooling,2^4=16)

1677898831882

图像的大小改变都是有pooling造成的

为什么叫共享？因为VGG产生的Feature Map用于RPN的训练，同时也用于RCNN的训练

4.Anchors

绿框框逐行的扫描

备选框：有一定的可能性包含物体在里面

4个值表示矩形左上和右下角点坐标：（x1,y1,x2,y2)
九个矩阵共有三种形状，长宽比大约为：
为每一个点都配备这9种anchors作为初始的检测框

1677898845416

对每一个点都生成这样的框框，量是非常巨大的

原文中使用的是ZF model中，其 Conv Layers中最后的conv5层 num_output=256，对应生成256 张特征图，所以相当于feature map每个点都是256-dimensions.
训练程序会在合适的anchors中随机选取128个postive anchors+128 个negative anchors进行训练

1677898857320

例如： 1677898869043

一个feature map 就产生17100个anchors

4.1对Anchor分配标签

区分前景与背景Anchor，标记标签(1 正例， -1 负例，0忽略)
- 正例：对于每一gt box，交并比最大的 anchor、与任一 gt box交并比超过一定阈值(0.7)
- 负例：与所有gt boxes交并比小于一定阈值(0.3) 其他忽略
对每一前景anchor，根据对应的gt box计算回归值

回归值的计算，使得框框的位置挪到一个更精确的位置

5.RPN(Region Proposal Network)

目的：判定哪些anchors有可能包含物体。

输入：所有的anchors （数量巨大）

输出：（1）包含物体的概率

（2）调整anchors的位置 1677898889400

anchors人工标定的9种大小，RPN把背景区分出来

1677898905424

上面一条用softmax分类anchors获得positive和negative
下面一条用于计算对于anchors的bounding box regression偏移量
最后的proposal获取positive anchors的正确proposal，剔除太小和超出边界的 proposal

生成检测框是非常耗时的，例如使用SPP(金字塔特征获取)

6.正负样本的判定

1677898918631

9*2=18

7.Bounding Box Regression

我们的目标是寻找一种关系，使得输入原始的anchor A经过映射得到一个跟真实窗口G更接近的回归窗口G’。
Anchor box与predicted box, ground truth之间的平移量：

VGG输出50x38x512, 对应50x38xk个anchors
RPN输出：
1. 50x38x2k的positive/negative softmax分类特征矩阵
2. 50x38x4k的regression坐标回归特征矩阵

8.Proposal Layer

Proposal Layer负责综合变换量和positive anchors, 计算出精准的proposal。
3个输入： anchors分类结果，对应bbox的变换量和缩放信息
缩放信息：若经过4次pooling后WxH=(M/16)x(N/16)，则缩放量为16。

1677898950462

处理流程：

生成anchors，依据变换量对所有的anchors做bbox regression回归。
按照输入的positive softmax scores由大到小排序anchors，提取前pre_nms_topN(e.g. 6000)个anchors。
限定超出图像边界的positive anchors为图像边界，防止后续roi pooling时proposal超出图像边界。
剔除尺寸非常小的positive anchors。
对剩余的positive anchors进行NMS。
之后输出proposal=[x1, y1, x2, y2]，对应的是MxN的图像尺度。

生成anchors -> softmax分类器提取positvie anchors -> bbox reg回归positive anchors -> Proposal Layer生成proposals

9.Roi pooling

目前的proposals还没有具体的物体信息。
因此需要从已有的 bounding boxes中提取特征。

两个输入：

原始的feature maps
RPN输出的proposal boxes

为何要RoI Pooling

proposals大小形状各不相同
从Spatial Pyramid Pooling发展而来

信息的丢失

图像的失真

处理步骤： 1677899009637

1677899022369

10.分类

通过全连接和softmax对proposals进行分类
再次对proposals进行bounding box regression，获取更高精度的bbox

1677899034734

11.Faster RCNN的训练

训练RPN，该网络用ImageNet预训练的模型初始化；
我们利用第一步的RPN生成的建议框，由 Fast R-CNN训练一个单独的检测网络，这个检测网络同样是由ImageNet预训练的模型初始化的；
我们用检测网络初始化RPN训练，但我们固定共享的卷积层，并且只微调RPN独有的层，现在两个网络共享卷积层了；
保持共享的卷积层固定，微调Fast R-CNN的 fc层。这样，两个网络共享相同的卷积层，构成一个一的网络。

12.网络总结

基于ZF或VGG16提取输入图像特征
生成anchors
RPN计算：特征图feature map通过RPN预测anchor参数：置信度 (foreground)和转为预测框的坐标系数
根据anchors和RPN预测的anchors参数，计算预测框的坐标系数，并得到每个预测框的所属类别labels。
ROI Pooling把目标转为统一的固定尺寸。
Fast RCNN 预测预测框的类别，和转为目标框的平移缩放系数。注意：这里要与RPN区分.

标签：Faster,anchors,positive,论文,网络,pooling,RCNN,proposal,RPN
From： https://www.cnblogs.com/y-tao/p/17177890.html

相关文章

论文推荐：ScoreGrad，基于能量模型的时间序列预测
能量模型（Energy-basedmodel）是一种以自监督方式执行的生成式模型，近年来受到了很多关注。本文将介绍ScoreGrad：基于连续能量生成模型的多变量概率时间序列预测。如果你对时间......
2021年系统架构设计师论文---论微服务架构及其应用
论微服务架构及其应用*忠旭（石家庄铁道大学河北省石家庄市长安区061600）摘要：随着互联网应用的发展，单体应用架构已经不能满足业务需求，微服务架构应运而生。微服务架构是......
论文阅读笔记（四）：AS-MLP AN AXIAL SHIFTED MLP ARCHITECTUREFOR VISION
1.摘要本文提出了一种轴向移位的MLP体系结构(AS-MLP),更关注局部特征的交互，通过特征图的通道轴移动，AS-MLP能够从不同的轴获取信息，这使得网络能够捕捉局部依赖（可以理解为cn......
[3] ScanRefer论文精读 3DVisual Grounding开山之作
论文名称：ScanRefer:3DObjectLocalizationinRGB-DScansusingNaturalLanguage这篇文章最主要的工作，我觉得是两个，第一，提出了一个问题；第二，比较简单地解决了这个问题......
Score-CAM: Score-Weighted Visual Explanations for Convolutional Neural Networks
摘要作者提出了一种不依赖梯度的类激活图生成方法Score-CAM，其通过前向传播获取每一个激活图的权重。实验证明Score-CAM能在解释决策过程方面实现更好的视觉性能和公平性。......
毕业设计相关论文学习
毕业设计相关论文及学习1.基于多元线性回归方法的疫情监测系统研究[1]夏婉玉.基于多元线性回归方法的疫情监测系统研究[D].武汉工程大学,2022.DOI:10.27727/d.cnki.gwh......
FCN论文
......
一文详解ATK Loss论文复现与代码实战
摘要：该方法的主要思想是使用数值较大的排在前面的梯度进行反向传播，可以认为是一种在线难例挖掘方法，该方法使模型讲注意力放在较难学习的样本上，以此让模型产生更好的效果。......
【论文阅读】struc2vec Learning Node Representations from Structural Identity
struc2vec:LearningNodeRepresentationsfromStructuralIdentityPDF文件学习指导struc2vec是一种图嵌入算法，用于生成节点的嵌入表示，和DeepWalk一样。但是DeepWal......
论文写作之消融实验与消融分析
Ablationstudy消融实验类似于控制变量法。在一个实验中，涉及到a,b,c三个部分，不知道那个部分对实验起到效果，如果想知道a部分对整个实验的作用，去掉a部分，从而知道a在实验中......

赞助商

阅读排行