一、Yolo系列介绍
YOLO(You Only Look Once)是一种基于深度学习的目标检测算法,由Joseph Redmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题,通过一个神经网络直接预测目标的类别和位置。YOLO算法将输入图像分成SxS个网格,每个网格负责预测该网格内是否存在目标以及目标的类别和位置信息。此外,YOLO算法还采用了多尺度特征融合的技术,使得算法能够在不同尺度下对目标进行检测。 相比于传统的目标检测算法,如R-CNN、Fast R-CNN和Faster R-CNN等,YOLO算法具有更快的检测速度和更高的准确率。这得益于其端到端训练方式和单阶段检测的特性,使其可以同时处理分类和定位任务,避免了传统方法中的多阶段处理过程。因此,YOLO算法广泛应用于实时目标检测和自动驾驶等领域。
二、经典检测方法
现如今的经典检测方法分为两种,一是one-stage,二是two-stage
1、 one-stage
优点:one-stage是一种端到端的检测方法,识别速度非常快,适合做实时检测任务
缺点:正确率相比较低
2、 two-stage
优点:正确率比较高,识别效果理想
缺点:识别速度比较慢,通常达到5FPS (FPS:每秒可以处理的图像数量)
三、评价模型性能优劣的指标--Map(Mean Average Precision)
Map是对不同类别目标检测精度的一种综合评价指标。它结合了多个方面的信息来衡量模型的性能,其中包括精确率(Precision)和召回率(Recall)。
1、精准率(Precision)
2、召回率(Recall)
3、Map
根据不同的阈值,绘制出召回率和精确率的曲线,将曲线以下的面积作为MAP值。当MAP值越大,则表示指标越好 。
4、与其他模型对比
YOLO(You Only Look Once)算法是一种目标检测算法, 把检测问题转换为回归问题,输出x,y,w,h。一个cnn就可以解决 可以对视频进行实时检测,应用领域非常广。
yolo v1的Map相较于其他模型还比较低,但yolo后续版本Map会逐渐提高。
四、yolo v1核心思想
将一幅图像分成SxS个网格(grid cell),如果某个object的中心 落在这个网格中,则这个网格就负责预测这个object。
五、yolo v1网络架构
网络结构借鉴了 GoogLeNet 。24个卷积层,2个全链接层。(用1×1 reduction layers 紧跟 3×3 convolutional layers 取代Goolenet的 inception modules )
7×7意味着7×7个grid cell,30表示每个grid cell包含30个信息,其中2个预测框,每个预测框包含5个信息(x y w h c),分别为中心点位置坐标,宽高以及置信度,剩下20个是针对数据集的20个种类的预测概率(即假设该grid cell负责预测物体,那么它是某个类别的概率)。
每个grid有30维,这30维中,8维是回归box的坐标,2个B是box的confidence,还有20维是类别。 其中坐标的x,y(相对于网格单元格边界的框的中心)用对应网格的归一化到0-1之间,w,h用图像的width和height归一化到0-1之间。
标签:YOLO,检测,Yolo,网格,v1,算法,grid,简介,stage From: https://blog.csdn.net/qq_61600833/article/details/143127935