参考:
R-CNN算法精讲 - 同济子豪兄 -_哔哩哔哩_bilibili
初读
提出R-CNN模型用于在提张图片中框出检测到的物体,并识别图中的各个物体
将region proposals和CNN相结合得R-CNN
两个关键点
- region proposals和CNN相结合
- 如果标注的数据比较少,为了使模型表现提升,采用预训练和调整策略
PASCAL VOC
国际顶级计算机视觉竞赛,Pattern Analysis, Statistical Modeling and Computational Learning,涌现了一大批目标检测和分割模型。
ILSVRC 挑战赛使用ImageNet(数据库),涌现了优秀的分类模型Alexnet、Resnet
分类和检测的区别,检测需要在图片中定位出物体
计算机视觉的基本任务
学习路线(经典论文发表时间)
红色是分类模型,绿色是目标检测模型
两个关键点具体是什么
传统物体检测使用的技术是HOG、SIFT(不知道是啥) , 将ILSVRC上的成果CNN运用到PASCAL VOC 竞赛上用于物体检测,面临两个问题
-
用CNN定位物体
解决方法是recognition with regions
-
用少量的标注数据训练容量比较大的CNN
传统解决方法:使用无监督学习预训练模型,然后再使用监督学习进行微调(fine-turning)
本文解决方法:使用辅助数据集ILSVRC进行监督学习预训练,然后在PASCAL数据集上进行训练微调
解决的两个问题即是本文的两大主要贡献
R-CNN模型的构成
由3个模块组成
-
选取候选框
Selective Search算法,生成2k个候选框
-
特征提取
卷积神经网络,提取出4096维特征
-
线性分类SVMs(支持向量机)
深度学习神经网络之前的分类器主要是SVM