1. 前言

由Joseph Redmon等人2016年在论文《You Only Look Once: Unifified, Real-Time Object Detection》中提出的一阶段目标检测算法，核心思想是将物体检测任务视为回归问题。它通过将图像分成S×S个网格，每个网格负责预测该网格中是否存在物体以及物体的类别和位置信息。使用单个神经网络同时预测所有物体的类别和位置信息。这种端到端的训练方式使得YOLOv1的训练和测试速度非常快。然而，YOLOv1的定位精度相对较差，特别是对于小物体和重叠的物体，精度表现不佳。

2. 具体算法

2.1. 网络结构

如上图所示，输入是448*448的图片，经过24层的卷积层提取图像特征，输出7*7*1024的feature map，然后再接两个全连接层，最后输出reshape成7*7*30的张量。为什么输出是这个形状呢？

2.2. 预测阶段

如上图所示，将输入图片划分为S*S个grid cell，然后每个cell有B个Bounding Boxes（简单起见简称为bbox）去拟合目标，在本文中，S取7，B取2。

然后每个bbox预测5个参数，分别为x,y,w,h,c：

x,y为预测物体中心点坐标，是相对坐标，相对于属于的grid cell左上角坐标的偏移量（也是取相对值0-1）。
w,h为宽高，是相对于输入图片宽高的比例。
c为该bbox包含物体的概率，隐含表示bbox与groud truth的IOU。

另外每个grid cell还会预测一组条件概率，在本文中，类别为20。总结来说，一张图片划分为7*7个格子，每个格子有2个bbox，每个bbox预测5个参数，加上每个grid cell预测20个类别的概率，总共有：

7*7*(2*5+20)=7*7*30，参考下图：

最后，将所有预测的框，通过nms过滤后，输出最后的预测结果。

由于每张图有49个grid cell，每个grid cell有两个bbox对groud truth进行拟合，但是最终的结果是取Confidence最大的那个bbox，因此在本文的设置中，网络最多也只能预测49个物体，因此对稠密的目标和靠得很近的目标，本网络检测效果不佳。

2.3. 训练阶段

如上图所示，左边是groud truth，在训练阶段，其中心点落在哪个grid cell就由那个grid cell负责拟合这个gt，由于每个grid cell生成两个bbox，因此，哪个bbox与gt的IOU较大则由这个bbox负责预测这个gt，如上图右所示，外边的bbox与gt的IOU更大，因此由它负责拟合gt，这个grid cell输出的类别也需要拟合为gt的类别。

对于不负责预测物体的bbox，则这些bbox只需要让Confidence尽量拟合为0。

3. 损失函数

损失函数可以分为几部分：

负责检测物品的bbox中心点定位误差。
负责检测物体的bbox宽高定位误差，取平方根，使得对小框更敏感。
负责检测物体的bbox Confidence误差，标签值为这个bbox与gt的IOU。
不负责检测物体的bbox Confidence误差。
负责检测物体的grid cell的分类误差。

每种误差前面都有一个指示函数，指示这个bbox或者grid cell是否含有物体。

因为在数据集中，一张图片49个grid cell中，往往只有少量grid cell有物体，其他的都没有，类别非常不平衡，如果负责检测物体的loss和不负责检测物体的loss权重都一样的话，会导致模型更偏向于训练不含有物体的grid cell，因此本文分别增加了λcoord作为有物体的loss权重，λnoobj作为不含物体的loss权重，分别取5和0.5。

4. 其他细节

与Fast R-CNN相比，Yolo明显map要低一点，不过在分类错误上主要是定位错误上很高，在背景的分类错误上很低，得益于yolov1能够看到全图，区分背景的能力强。另外由于yolo是在7*7的feature map上进行预测的，粒度比较粗，对小目标的检测效果也不好。

5. 参考

【论文解读】Yolo三部曲解读——Yolov1

【精读AI论文】YOLO V1目标检测，看我就够了

（完）

标签：gt,预测,YOLOv1,物体,论文,cell,grid,bbox,重读
From： https://www.cnblogs.com/harrymore/p/17357611.html

1.ORB-SLAM3论文重点导读及整体算法流程梳理
摘要ORB-SLAM3是第一个能够执行纯视觉、视觉-惯导以及多地图的SLAM系统，可以在单目，双目以及RGB-D相机上使用针孔以及鱼眼模型。本文主要新颖之处在于基于特征的VIO紧耦合系统，该系统完全依赖于最大后验估计，即使在IMU初始化阶段也是如此。本系统在小型和大型、室内和室外环境中实时......
研究生论文处理的数据
数据的特征是反射率每一个波长代表一个维度。数据的横轴代表像素数，纵轴代表不同频率，里面的内容表示不同频率的反射率。物体反射的辐射能量占总辐射能量的百分比，称为反射率。不同物体的反射率也不同，这主要取决于物体本身的性质(表面状况），以及入射电磁波的波长和入射角度，反射率的大......
中国的世界遗产结课论文
中国的世界遗产结课论文先上正文中国是一个拥有悠久历史和丰富文化遗产的国家，这些遗产不仅代表着中国人民的智慧和创造力，也是世界文化遗产的重要组成部分。在中国境内，共有56处世界文化和自然遗产，涵盖了古代建筑、自然风光、历史文化等多个方面。本文将重点介绍几处代表......
数学建模论文排版（表格篇）
本文为学习清风数学建模排版的word部分的笔记配套资料可以在微信公众号《数学建模学习交流》后台发送“论文排版”免费获取。三线表制作先插入一个表格然后删除边框（在表格工具--布局--查看网格线（打开），即可看见去除边框后的虚线）再利用表格工具--表设计--边框刷为表格刷上边框，第......
论文推荐：基于联合损失函数的多任务肿瘤分割
以FFANet为主干，加入分类的分支，将模型扩展为多任务图像分割框架，设计了用于分类和分割的联合损失函数。FFANet+MTL完整文章：https://avoid.overfit.cn/post/6a605da56978443bb548e8f342cbda37......
论文解读（VAT）《Virtual Adversarial Training: A Regularization Method for Supervise
论文信息论文标题：VirtualAdversarialTraining:ARegularizationMethodforSupervisedandSemi-SupervisedLearning论文作者：TakeruMiyato,S.Maeda,MasanoriKoyama,S.Ishii论文来源：2020ECCV论文地址：download 论文代码：download视屏讲解：click1前言提出问题：在......
论文解读《Do We Need Zero Training Loss After Achieving Zero Training Error?》
论文信息论文标题：DoWeNeedZeroTrainingLossAfterAchievingZeroTrainingError?论文作者：TakashiIshida,I.Yamane,TomoyaSakai,GangNiu,M.Sugiyama论文来源：2020ICML论文地址：download 论文代码：download视屏讲解：click1简介训练模型的时候，需要将训练损失降......
ChatGPT 可以写你的论文，但你应该使用它吗？
随着在线写作工具的日益普及，您可能想知道：我可以使用ChatGPT来写我的论文吗？如果您从未使用过聊天机器人，它可以在几秒钟内生成几段文本。这肯定比任何人打字都快，但使用它也有很多限制。以下是您需要了解的有关ChatGPT在撰写论文方面的表现以及您是否应该使用它的所有信息......
浏览器打开有些pdf内容不全、打开有些论文页很多红色绿色的框
问题问题1：edge浏览器打开pdf，只能看到表格，看不到表格里的字，用其他浏览器打开或者pdf阅读器打开都能看到完整的表格内容。问题2：用edge浏览器看pdf论文的时候，会有很多红色或绿色的框，比如：问题产生原因偶然间，我发现导致这些问题是因为我安装的“侧边翻译”插件，由于之前看网页中的pdf......
论文解读（PGD）《Towards deep learning models resistant to adversarial attacks》
论文信息论文标题：Towardsdeeplearningmodelsresistanttoadversarialattacks论文作者：AleksanderMadry,AleksandarMakelov,LudwigSchmidt,DimitrisTsipras,AdrianVladu论文来源：ICLR2018论文地址：download 论文代码：download视屏讲解：click1 介绍对抗攻击2......

[重读经典论文]YOLOv1