目录
一、YOLO系列 V3
1、了解YOLOv3
相比于YOLOv1和v2,YOLOv3最大的改进就是网络结构,使其更适合小目标检测,特征做的更细致,融入多持续特征图信息来预测不同规格物体
先验框更丰富了,3种scale,每种3个规格,一共9种
softmax改进,预测多标签任务。
和YOLOv2一样都是使用的darknet网络结构,v1用的GoogLeNet网络
2、3个scale
为了能检测到不同大小的物体,设计了三个尺度scale
scale变换的经典方法:
不同特征图融合后进行预测:YOLOv3
3、残差连接
YOLOv3使用了ResNet残差网络的私信,堆叠更多的层再进行特征提取
二、YOLOv3核心网络构架
1、核心网络构架
没有池化层和全连接层,全部卷积,下采样通过stride卷积核滑动步长为2来实现,使用3种scale尺度,更多的先验框
Conv Block表示该模块是一个普通的卷积模块,Residual Bolck代表该模块是一个残差网络。
2、输入映射到输出
3、先验框设计
YOLOv2使用了5个先验框,这里的v3使用了9种先验框
例如,13*13的特征图上使用(116x90)、(156x198)、(373x326)的先验框
26*26的特征图上使用(30x61)、(62x45)、(59x119)的先验框
52*52的特征图上使用(10x13)、(16x30)、(33x23)的先验框
大的先验框在感受野大的特征图中检测
YOLO3延续了K-means聚类得到先验框的尺寸方法,为每种下采样尺度设定3种先验框,总共聚类出9种尺寸的先验框。在COCO数据集这9个先验框是:(10x13),(16x30),(33x23),(30x61),(62x45),(59x119),(116x90),(156x198),(373x326)。 分配上,在最小的13*13特征图上(有最大的感受野)应用较大的先验框(116x90),(156x198),(373x326),适合检测较大的对象。中等的26*26特征图上(中等感受野)应用中等的先验框(30x61),(62x45),(59x119),适合检测中等大小的对象。较大的52*52特征图上(较小的感受野)应用较小的先验框(10x13),(16x30),(33x23),适合检测较小的对象。
COCO数据集介绍:
4、softmax层替代
在模型的输出端需要进行一个softmax的处理,可以处理物体检测任务中一个物体有多个标签
以前使用logistic激活函数来完成,将所有的值输入输入到函数内变成0-1之间的数值,这样就能预测每个类别是或不是,但是只有一个类别的识别,如下图所示
logistic指的是未经过softmax函数处理的网络输出,也就是各个类别的得分(score)或概率(probability)值,因此沿用了logit这个术语。在逻辑回归(logistic regression)模型中,logits表示某个事件发生的概率与不发生的概率之比的对数值。
标签:scale,YOLOv3,特征,YOLO,图上,V3,softmax,先验,构架 From: https://blog.csdn.net/qq_64603703/article/details/143183766