简介
YOLO v2(You Only Look Once version 2)是一种用于目标检测的深度学习模型,由 Joseph Redmon 等人于 2016 年提出。yolo v2在v1的基础上进行了一些改进使它在保持高速检测的同时,显著提升了检测的精度和泛化能力,成为实时目标检测领域的重要算法之一 。
YOLO v2 在 YOLO v1 的基础上进行了多方面的改进
(1)、去除了全连接层
YOLO v1 使用了全连接层,全连接层会丢失较多的空间信息,对目标的定位不够准确。YOLO v2 去掉了全连接层,采用全卷积网络结构,这使得模型能够更好地保留空间信息,提高了定位的准确性。YOLO v2 去除了全连接层,因此可以输入任意尺寸的图像。通过使用不同尺寸的图像对模型进行训练,让模型能够从不同分辨率的图像中学习特征,从而提高了模型的泛化能力。
(2)、增加批次归一化层(Batch Normalization)
在每一个卷积层后面都添加了批归一化层。这有助于解决反向传播过程中的梯度消失和梯度爆炸问题,降低对一些超参数(如学习率、网络参数的大小范围、激活函数的选择)的敏感性,提高了模型的训练速度和收敛效果,并且起到了一定的正则化作用,在舍弃 Dropout 优化后依然不会过拟合。
(3)、调整网络输入尺寸
YOLO v1 输入图像尺寸为 448×448,YOLO v2 将输入图像的尺寸调整为 416×416。因为 YOLO v2 模型下采样的总步长为 32,对于 416×416 大小的图片,最终得到的特征图大小为 13×13,维度是奇数,这样特征图恰好只有一个中心位置。对于一些大物体,它们中心点往往落入图片中心位置,此时使用特征图的一个中心点去预测这些物体的边界框相对容易些。
(4)、采用高分辨率分类器
YOLO v1 在预训练时使用的是 224×224 的输入,在检测时采用 448×448 的输入,从分类模型切换到检测模型时,模型需要适应图像分辨率的改变。YOLO v2 首先在低分辨率(224×224)的 ImageNet 分类数据集上预训练模型的主体部分,然后将 ImageNet 分类数据集 resize 成高分辨率(448×448)图像,使用该高分辨率数据集微调预训练模型,最后再用目标检测数据集进行微调。这使得模型在检测之前已经适应了高分辨率输入,提高了检测精度。
(5)、聚类提取先验框
在模型训练之前,提前把训练集的标签值提取出来,通过k-means聚类的方法,聚类出5个类别。结果当作是先验框。 最后在进行模型训练。
(6)、直接位置预测(Directed Location Prediction)
Directed Location Prediction(直接位置预测)是 YOLO v2 算法中对目标边界框位置预测方式的一种改进策略2。其主要目的是让模型的位置预测更为稳定、准确,且能更好地适应不同形状和大小的物体检测。
yolo v1 中存在的问题
预测的偏移量包括tx、ty、tw、th(第一次为先验框及初始化的中心坐标在模型中输出的结果与真实框损失值得到的偏移量值)。调整后的预测值bx、by、bw、bh是通过计算得到的。
标签:Yolo,简介,模型,YOLO,v1,v2,448,检测 From: https://blog.csdn.net/qq_61600833/article/details/143185989