首页 > 其他分享 >yolov1总结

yolov1总结

时间:2024-06-14 19:58:08浏览次数:18  
标签:总结 box 置信度 yolov1 卷积 YOLO 网格 bounding

  1. YOLO-V1的核心思想:

利用整张图作为网络的输入,将目标检测作为回归问题解决,直接在输出层回归预选框的位置及其所属的类别。YOLO和RCNN最大的区别就是去掉了RPN网络,去掉候选区这个步骤以后,YOLO的结构非常简单,就是单纯的卷积、池化最后加了两层全连接。单看网络结构的话,和普通的CNN对象分类网络几乎没有本质的区别,最大的差异是最后输出层用线性函数做激活函数,因为需要预测bounding box的位置(数值型),而不仅仅是对象的概率。所以粗略来说,YOLO的整个结构就是输入图片经过神经网络的变换得到一个输出的张量,我们来看下YOLO-V1论文中给出的的结构,

该网络架构借鉴了GoogLeNet的思想,改造了其中的InceptionV1网络,只是这里并没有使用原始的inception模块,而是用一个1x1的卷积接联一个3x3的卷积来代替,

从上图中可以看到,YOLO-V1网络的主要步骤如下:

输入图片是448x448x3,经过一个7x7x64,stride为2的卷积层和一个2x2,stride为2的最大化池化层后得到112x112x192尺寸的特征图。

经过一个3x3x192的卷积层和一个2x2,stride为2的最大化池化层后得到56x56x256尺寸的特征图。这里留一个讨论题,这两步的尺寸变化有没有问题?欢迎大家评论区讨论。

经过一个1x1x128,3x3x256,1x1x256,3x3x512的卷积层和2x2,stride为2的最大化池化层后得到28x28x512的特征图。

经过四组1x1x256,3x3x512的卷积层后再经过1x1x512,3x3x1024的卷积层和一个2x2-s-2的池化层后得到14x14x1024的特征图。

经过两组1x1x512,3x3x1024的卷积层后再经过一个3x3x1024和stride为2的3x3x1024的卷积层后得到7x7x1024的特征图。

经过两个3x3x1024的卷积层后得到7x7x1024的特征图。

经过节点为4096的全连接层后最终得到7x7x30(其实是一个一维向量的三维化)的检测结果。

整个算法的大致流程就是这样,接下来我们看下为什么最终会得到7x7x30的结果?

  1. 为什么是7x7x30的输出?

YOLO-V1将一副448x448的原图分割成了7x7=49个网格,每个网格要预测两个bounding box的坐标(x,y,w,h)和box内是否包含物体的置信度confidence(每个bounding box有一个confidence),以及该网格包含的物体属于20类别中每一类的概率(YOLO的训练数据为voc2012,它是一个20分类的数据集)。所以一个网格对应一个(4x2+2+20)=30维度的向量。

  1. 上面提到的候选框怎么生成呢?

候选框怎么生成?

上面提到7x7的每个网格都要预测两个bounding box的坐标和置信度,如下图,以红色网格为例,生成两个大小形状不同的蓝色box,box的位置坐标为(x,y,w,h),其中x和y表示box中心点与该格子边界的相对值,也就是说x和y的大小被限制在[0,1]之间,假如候选框的中心刚好与网格的中心重合,那么x=0.5,y=0.5。

w和h表示预测box的宽度和高度相对于整幅图片的宽度和高度的比例,比如图中的框住狗的蓝色网格的宽度w大致为1/3,高度h大致为1/2。这样(x,y,w,h)就都被限制在[0,1]之间,与训练数据集上标定的物体的真实坐标(Gx,Gy,Gw,Gh)进行对比训练,每个网格负责预测中心点落在该格子的物体的概率。

每个box预测的置信度只是为了表达box内有无物体的概率(类似于Faster R-CNN中RPN层的softmax预测anchor是前景还是背景的概率),并不预测box内物体属于哪一类。那么这个置信度有什么用呢?

  1. 不一样的置信度

这里面的置信度跟前面学的置信度有一些些不同。以前我们理解的置信度只是一个简单的得分,一个对该物体预测的概率值。YOLO中的置信度公式如下:

Pr (object) * IOU (truth, pred)

其中前一项表示有无人工标记的物体落入网格内,如果有,则为1,否则为0.第二项表示bounding box和真实标记的box之间的IOU,值越大则表示box越接近真实位置。confidence是针对bounding box的,每个网格有两个bounding box,所以每个网格会有两个confidence与之对应。

  1. 预测流程:

知道了网络框架,候选框的生成,以及置信度的定义,我们看下YOLO-V1预测工作流程是怎么样的?

对输入图片进行网格划分,每个格子生成两个bounding boxes.

每个网格预测的class信息和bounding boxes预测的confidence信息相乘,得到每个bounding box预测具体物体的概率和位置重叠的概率PrIOU

其中为每个网格预测的class信息,为confidence。

  1.  最后对于每个类别,对PrIOU进行排序,去除小于阈值的PrIOU,然后做非极大值抑制。

标签:总结,box,置信度,yolov1,卷积,YOLO,网格,bounding
From: https://blog.csdn.net/yjs030609/article/details/139688494

相关文章

  • HTML的学习总结#4
            这篇是对今天的学习进行总结,今天的学习内容不是很多,但是含金量很大,所以我会认真的总结介绍,也希望大家跟我一起学习认识。文字阴影         主要是给文字添加阴影效果,使得文字更加着重和增强显示效果。<style>/*水平位置垂直位......
  • PMP考前集训干货总结
    一、口诀1、谋定而后动:发现问题——>分析问题——>解决问题2、遇到问题,先记录——>讨论分析——>找解决方案3、获资源,优先谈判——>找领导——>招募4、遇采购索赔,优先谈判——>ADR(调解、仲裁)——>法院5、人的问题找沟通:与干系人见面、接触、开会、讨论、达成一致6、凡......
  • 【课程总结】Day8(上):深度学习基本流程
    前言在上一篇课程《【课程总结】Day7:深度学习概述》中,我们了解到:模型训练过程→本质上是固定w和b参数的过程;让模型更好→本质上就是让模型的损失值loss变小;让loss变小→本质上就是求loss函数的最小值;本篇文章,我们将继续深入了解深度学习的项目流程,包括:批量化打包数据、模......
  • 个人总结
    个人总结:大二学习与项目回顾在大二这一年,我主要完成了SpringBoot和Vue项目,并学习了安卓开发内容。通过这一年的学习和实践,我参与了多个项目,包括共享益网站、安卓学习记录App和出差App。以下是我对这一年的总结和反思。1.回顾课程计划第一周的计划与完成情况在大二开学的第一......
  • Beta版总结会议
    Beta版总结会议共享益项目会议总结与反思会议概述在本次会议中,我们团队围绕“共享益”项目进行了深入讨论。共享益是一个旨在提供资源共享平台的网站,利用SpringBoot和Vue开发,目标是为用户提供一个便捷、高效的资源共享环境。会议主要涵盖了以下几个方面:项目总结与分析技术层......
  • git操作常用命令总结
    要将本地代码同步到公司仓库,您需要遵循以下步骤:安装Git:如果您还没有安装Git,请访问Git官网(https://git-scm.com/)下载并安装适合您操作系统的版本。初始化Git仓库:在本地计算机上,导航到您要克隆公司仓库的目录,然后运行以下命令:gitinit这将初始化一个Git仓库,但请注意,......
  • 公司面试题总结(五)
    25.谈一谈箭头函数与普通函数的区别,箭头函数主要解决什么问题?箭头函数与普通函数的区别:⚫语法简洁性:◼箭头函数使用=>符号定义,省略了function关键字,使得语法更为紧凑。◼对于单行函数体,可以进一步简化,省略花括号和return语句。⚫词法作用域内的this:......
  • 【408精华知识】史上最全的数据结构代码题总结!三万字长文!!!
    关于数据结构代码题,可以说是让很多同学感到头疼了,书上的代码太繁琐、网上的总结不全面让大家对代码题感到云里雾里,那么这篇文章可能会给大家带来一点启发,因为我自己也是深受代码题的折磨,所以一直想写一篇有关它的总结,希望能够做到全面、简洁,让大家用最快的速度记住代码书......
  • 代码随想录第7天 |● 454.四数相加II●383. 赎金信●15. 三数之和●18. 四数之和●哈
    题目:454.四数相加Ⅱ思路:0.知道用map,但是map存啥1.暴力法,四层循环遍历哈哈哈哈2.分而治之,化繁为简,四个数组a,b,c,d分成两组,题目求符合要求的元祖个数,所以将a+b的值和出现次数存储,之后遍历查找c+d中0-(c+d)出现的次数,统计为结果时间复杂度:O(n^2)空间复杂度:O(n^2),最坏情况下A......
  • 面试整理总结
    参加嵌入式的面试工作,共面试了3家,怡和嘉业、经纬恒润、华来科技,都只是参加了一面,之后就没有信息了。其实想一想,自己的嵌入式开发经验也很少,并没有优势。总结一下自己的优势,需要充分发挥;然后反思一下的自己的短处,进行查漏补缺 记录当时不会的几个问题:1.线程调度的原理不......