1. YOLO V5模型概述
1.1 YOLOv5的概念
YOLOv5是一种基于深度学习的目标检测模型,相较于YOLOv4,YOLOv5模型在目标检测精度和速度上都有了显著的提升。
YOLOv5模型基于PyTorch开发,利用主干网络、检测头和损失函数等模块,能够实现对图像中多个目标的快速检测和定位。
1.2 YOLOv5模型的组成
-
Backbone(骨干网络):YOLOv5使用CSPDarknet53作为骨干网络,CSPDarknet53是一种深度残差网络结构,它使用了CSP(Cross Stage Partial)连接来减少参数量并提升特征表达能力。
-
Neck(特征融合模块):YOLOv5使用PANet作为特征融合模块,PANet通过建立金字塔结构,将不同尺度的特征图进行融合,提高了模型对不同尺度目标的检测能力。
-
Head(检测头部):YOLOv5使用YOLOv4的一个改进版本,即YOLOv3-Tiny的检测头部结构,该结构包含了多个卷积层和全连接层,用于生成预测框和置信度。
2. YOLO V5的创新点
2.1 数据输入
1:Mosaic数据增强
Yolov5的输入端与Yolov4同样采用了Mosaic数据增强,对四张图片随即缩放,随机裁剪,随机排布之后再拼接。(丰富了数据集、降低了训练成本。)
2:自适应图片缩放-letterbox
letterbox操作在目标检测算法中主要用于自适应图片缩放,确保图片在缩放时保持其长宽比,同时填充空白部分以适应模型输入要求。(对原始图像自适应的添加最少的黑边)
2.2 -anchor生成
1:自适应锚框计算
锚框(Anchor box),用于预测框计算做参考的预定义框,基于这个参考,算法生成的预测框仅需要在这个锚框的基础上进行“精修或微调fine-tuning”即可,这样算法可以收敛的更快,检测效果更好。
Yolov5中将此功能嵌入到代码中,每次训练时,自适应的计算不同训练集中的最佳锚框值
2.3 -Backbone结构(骨干网络)
1: CSPDarkNet53模型结构+Focus结构
图片进入backbone前,Focus结构对图片进行切片操作。
mAP(mean Average Precision)用于衡量目标检测算法的性能。全类平均正确率(mAP,又称全类平均精度)是将所有类别检测的平均正确率(AP)进行综合加权平均而得到的。
2:Focus结构
Yolov5与Yolov4相比,添加了Focus结构。
在每张图片中每隔一个像素采集一个值,这样可组合为4张互补且无信息丢失的图片,同时将宽高信息集中到通道空间,输入通道扩充4倍,拼接后的图片相对于原图片的RGB三通道模式变为12通道,即4x4x3的图像经切片后变为了2x2x12的特征图。
2.4 -Neck(特征融合模块)
FPN+PAN的结构
FPN是自顶向下的,将高层的 特征信息通过上采样的方式进行 传递融合,得到进行预测的特征 图。
PAN一个自底向上的金字塔, 这样的操作是对FPN的补充, 将低层的强定位特征传递上去。
1.5 损失函数
1:Bounding Box的损失函数-GIOU_Loss
3. 特点与意义
3.1 YOLO V5特点
1、模型的推理速度快
2、可以进行实时检测,准确率高
3.1 YOLO V5在深度学习发展史上的意义
1、促进了目标检测领域的技术更新、发展。
2、促进卷积神经网络工业化应用的发展。
标签:YOLOv5,检测,模型,YOLO,算法,V5,图片 From: https://blog.csdn.net/Helowr/article/details/144617883