论文领读：You Only Look Once:Unified,Real-Time Object Detection

标签：Real Unified 翻译 YOLO 检测领读 CNN 原文我们

论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_02

原文翻译： 我们提供了一种新的目标检测的方法YOLO。先前在目标检测的工作将分类器重新定义来执行检测。相反，我们将目标检测定义为一个时空分离的边界框和相关类概率的一个回归问题。单个神经网络在一次评估中直接从完整的图像中预测边界框和类概率。因为整个的检测通道是单一网络，它直接从检测性能上进行端到端的优化。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_03

原文翻译：我们的统一架构非常快。我们基于YOLO模型以每秒45帧的速度实时处理图像。一个小版本的网络，Fast YOLO，处理图像以惊人的155帧每秒的速度同时是其他实时检测器的平均精度的两倍。跟最先进的检测系统相比，YOLO有更多的定位错误但是在预测背景上出现更少的假阳性（误报）。最后，YOLO学习对象的一般表示。在从自然图像到其他领域（如艺术作品）的生成过程中，他的表现优于其他的检测方法，包括DMP和R-CNN。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_04

原文翻译：在图片上人们只要瞥一眼就知道是什么物体，物体在哪，他们是怎么交互的。人类的视觉系统是非常快速而且准确。允许在几乎没有意识的情况下完成复杂的任务，如开车。快速、准确的目标检测算法将允许计算机在没有专门传感器的情况下驾驶汽车。使辅助设备为人类用户传递实时的场景信息，并为通用性、响应性强的机器人系统释放潜力。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_05

原文翻译：目前的检测系统重新使用分类器执行检测。为了检测一个对象，这些系统采用该对象分类器在不同位置对它进行评估和在测试图片中缩放。像可变性部分模型的系统使用滑动窗口的方法，在整个图像上以均匀的空间间隔运行分类器。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_06

原文翻译：最近一些方法像R-CNN 使用区域建议方法首先在图片中生成潜在的边界框，并且在这些推荐框中运行一个分类器，分类后，使用后处理对边界框进行细化，消除重复检测，根据场景中的其他对象对框重新进行检测。这些复杂的通道是速度慢并且难以优化，因为每个组件必须是单独训练。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_07

原文翻译：我们将物体检测作为单一的回归问题，直接从图像像素到边界框坐标和类概率。使用我们的系统，你只需要看一次在图像（YOLO），就可以预测物体的存在和位置。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_08

原文翻译：YOLO是非常简单，看图1。单个的卷积网络同时预测多个边界框和这些框的类概率。YOLO训练完整的图像，并且直接优化检测性能。这些统一模型比起传统的物体检测模型有几个优点。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_09

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_10

原文翻译：首先，YOLO非常快，因为我们将检测作为回归问题，我们不需要一个复杂的通道。我们只是在测试时在新图像上运行我们的神经网络来预测检测结果。我们的基础网络以每秒45帧的速度运行，在Titan X的GPU没有批处理，而一个快速版本的运行速度超过了每秒150帧。这意味着我们能实时处理流视频，延迟时间不到25毫秒。此外，YOLO的平均精度是其他实时监测系统的2倍多。关于我们的系统在网络摄像头上实时运行的演示，请参见我们的项目网页：http://pjreddie.com/yolo/

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_11

原文翻译：其次，当做预测时，YOLO在全局范围内对图像进行推理，与滑动窗口和区域推荐的技术不同，YOLO在训练和测试时看到整个图像，因此它能隐式地编码有关类及其外观的信息。Fast R-CNN，一个顶级的检测方法。错误的背景补丁在一个物体的图像，因为他不能看到更大的背景。与Fast R-CNN相比，YOLO产生的背景错误还不到一半。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_12

原文翻译：第三、YOLO学习的对象可概括表示。通过对自然图像的训练和对艺术作品的测试，YOLO比DPM和R-CNN等顶级的检测方法有很大优势。由于YOLO是高度通用的，所以应用到新领域和意外输入时，他不太可能崩溃。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_13

原文翻译：YOLO在精度上仍然落后于先进的检测系统。虽然他在图片上能快速的识别物体，但他就很难精确定位某些对象，尤其是小的那些，我们将在今后的研究中心进一步研究这些权衡。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_14

原文翻译：我们所有的训练和测试编码是开源的。各种预先训练的模型是可以下载的。每一个网格一组类概率，与边框B的数量无关。(B表示每个单元格可以预测的边界框数)

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_15

原文翻译：在测试时间我们乘以条件下的类概率和单个的盒子置信度的预测。

$论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_16$ (1)

这就给我们提供了每个盒子具体类的置信度的分数。这些得分编码了类出现在框里的概率和预测框和对象的拟合度

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_17

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_18

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_19

原文翻译：我们将该模型实现为卷积神经网络，并且在PASCALVOC 检测数据集上对它进行评估。网络的初始卷积层从图像中提取的特征，然后全连接层预测输出的概率和坐标。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_20

原文翻译：我们的网络架构是受到GoogleLeNet图像分类模型的启发，我们的网络有24卷积层，然后是两个全连接层。代替了GoogleLeNet使用的inception modules，我们简单的使用1X1的简化层，然后是3X3的卷积层，跟Lin et al的一样，整个网络在图3中展示。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_21

原文翻译：我们也训练一个YOLO的快速版本，这个版本被用来推动快速目标检测的边界，Fast YOLO 使用一个很少卷积层（9个而不是24个）的神经网络和更少的过滤器。除了网络的大小，YOLO和Fast YOLO之间的所有的训练和测试参数是一样的。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_22

论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_23

原文翻译：我们在ImageNet 1000类竞争数据集上预先训练我们的卷积层。在训练前，我们使用图3中的前20层卷积层，然后是平均池化层和全连接层。我们需要大约一个周来训练这个网路，在ImageNet2012验证集上实现88%的单批top5的准确率。跟在Caffe的模型zoo 的GoogleNet 模型相当，我们使用Darknet框架进行所有的训练和推理。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_24

原文翻译：我们让模型去执行检测。Ren et al 展示了在训练之前增加卷积层和连接层能够提高性能。根据他们的例子，

论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_25

原文翻译：我们最后一层预测类概率和边界框坐标，我们根据图像的宽度和高度来标准化边界框的宽度和高度，因此他们都落在0和1之间，我们参数化边界框x和y的坐标作为一些特殊的网格单元格位置的偏移量，所以他们也在0和1之间。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_26

原文翻译：我们使用线性激活函数作为最后一层，其他的所有层使用泄露修正线性激活

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_27

原文翻译：我们优化我们模型平方和误差的输出，我们用平方和误差因为他是很容易优化的，但是它没有完全符合我们最大化平均准确率的目标，它权衡了定位误差和可能不太理想的分类误差。而且，在每个图像中的很多单元格中都不包含对象，这使这些单元格的置信度分数趋向于0，经常压倒不包含对象的单元格的梯度。这导致模型的不稳定性，造成训练早期的分歧。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_28

原文翻译：为了解决这个问题，我们增加边界框坐标预测损失和降低没有对象的框的置信度预测损失，我们用两个参数来完成这个任务， $论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_29$

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_30

原文翻译：对于平方和误差来说，大边框和小边框的误差同样重要。而我们的误差矩阵应该反映出大边框比小边框的偏差更重要。为了专门解决这个问题，我们预测边界框的宽度和高度的平方根，而不是直接预测宽度和高度。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_31

原文翻译：YOLO预测每个网格单元格有多边框，在训练时，我们希望一个边界框预测器为每个对象负责。我们指定一个预测器对基于预测IOU和真实值最高的对象有责任，这将导致边界框预测器之间的专门化。每个预测器能更好的预测特定大小、长宽、或者对象的类别，提高整体的回忆能力。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_32

原文翻译： $论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_33$ 表明如果对象出现在单元格i中， $论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_34$ 表明在单元格i中第j个边界框预测器是对预测负责的。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_35

原文翻译：注意的是，如果一个对象是存在网格单元中时（因此前面讨论了条件类概率），损失函数才会惩罚分类错误。如果预测器对实际的框负责，它也仅仅是惩罚坐标错误的边界框（在每个网格单元格里每个预测器的IOU都是最高的）

论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_36

原文翻译：我们通过PASCAL VOC 2007 and 2012训练数据集和验证数据集，对网络进行大概135次迭代训练。当在2012测试时我们包含VOC 2007测试数据作为训练。我们使用64大小的块，动量为0.9，衰减为0.0005。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_37

原文翻译：我们的学习率计划如下：第一次迭代我们缓慢将学习率从 $论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_38$ 提升到 $论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_39$ 。如果我们在一个高学习率开始，我们的模型由于不稳定的梯度而发散。我们使用 $论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_39$ 继续进行75迭代训练。然后是以 $论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_38$ 进行30次迭代。最后以 $论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_42$ 进行30次迭代。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_43

原文翻译：为了避免过度拟合，我们使用dropout(辍学)和广泛的数据扩充。在第一个连接层之后，速率为.5的dropout层阻止了层之间的相互适用。为了增加数据，我们引进了随机缩放和高达原图像大小20%的平移。我们在高达1.5倍的颜色空间随机调整图像的曝光度和饱满度。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_44

原文翻译：就像在训练中，预测检测测试图像仅仅需要一个网络的评估，在PASCAL VOC 网络预测每个图像98个边界框和每个框的类概率。YOLO在测试时间相当快，因为仅需要单个网络评估，不像基本的分类方法。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_45

原文翻译：网格的设计使在边界框上的预测具有空间多样性。通常情况下，对象落在那个单元格里是很清楚的，而网络只预测每个对象的一个格子。然而，一些大型对象或者被多边界附近的对象能够通过多个单元格很好定位。非最大抑制能被用来修复这些多重检测。监管不像R-CNN或者DPM那样对性能至关重要。但非最大抑制在平均精度上提高了2-3%。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_46

原文翻译：YOLO在边界框预测上施加了很强的空间约束，因此每个网格预测两个框和一个类。这样的空间约束限制了我们模型能预测到的附近对象的数量。我们的模型在和成群出现的小物体作斗争，比如鸟群。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_47

原文翻译：由于我们的模型学会了从数据中预测边界框，它很难推广到一个新的或者不寻常的纵横比或者配置的对象。我们的模型使用相对的粗略特征来预测边界框，因为我们的架构有来自图像的多个下采样层。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_48

原文翻译：最后，尽管我们训练一个接近检测性能的损失函数，我们的损失函数处理大型边界框和小型边界框的误差是一样的。在大边框上的小误差通常是友好的，但是在小边框上的小误差对IOU有很大的影响。我们误差的主要来源是不正确的本地化。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_49

原文翻译：对象检测是计算机视觉的核心问题，检测通道通常收集一系列由来自输入图像的显著特征开始的。然后，HOG，卷积特征。然后，分类器或者定位器都是用来在特征空间识别物体。这些分类器和定位器不仅运行于在整个图像的滑动窗口，同时也运行在一些图像区域的子集上。我们对比YOLO检测系统对几个顶尖的检测框架，突出强调关键点相似和不同。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_50

原文翻译：可变部分模型，可变部分模型使用一个滑动窗口方法来进行物体检测，DPM使用不相交的管道提取静态的特征，对区域进行分类，预测高分区域的边界框。我们的系统用单个的卷积神经网络替换所有这些不同的部分。该网络具有特征提取，边界框预测，非极大值抑制，上下文推理等功能。与静态特征不同，该网络对特征进行在线训练，并针对检测任务进行优化。我们统一架构导致了一个比DPM更快更精确的模型。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_51

原文翻译：RNN和它的变形使用区域建议而不是滑动窗口来找到在图像中的对象。选择性搜索生成潜在的边界框，一个卷积神经网络提取特征，一个支持向量机给框评分。一个线性模型调整边界框，非极大值抑制消除了重复的检测。这个复杂管道的每个阶段都必须精确地调优，造成系统非常的慢，在测试时每张图片要花费超过40秒的时间。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_52

原文翻译：YOLO和R-CNN有一些共同之处。每一个网格提出潜在的边界框并且使用卷积特征来给这些框评分。然而，我们的系统给这些网格设置了空间约束，这有助于减轻同一物体的多检测问题。我们的系统也提出了更少的边界框，相比于来自选择性搜索大约2000个搜索框，我们每张图片只有98个。最后，我们系统将这些单个的组件组合成一个单独的、联合优化的模型。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_53

原文翻译：其他的快速检测器Fast 和Faster R-CNN 通过共享计算和使用神经网络来提出区域而不是选着性计算来提高R-CNN框架的速度。尽管他们在速度和精度上的提升超过了R-CNN，但他们在实时性能方面有所欠缺。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_54

原文翻译：许多研究努力都集中在提升DPM通道的速度。他们加速了HOG的计算。使用cascades，将计算推给GPU。然而，只有30Hz的DPM实际上是实时运行的。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_55

原文翻译：代替尝试优化单个大型检测通道的组件的是，YOLO抛掉整个通道，并且能快速设计。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_56

原文翻译：针对单个类的检测器（如人脸或人）能够被高度的优化，因为他们必须处理更少的变量。YOLO是一个通用的检测器，它能同时学习去检测到多个物体。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_57

原文翻译：Deep MultiBox，不像R-CNN，Szegedy等，并没有使用选择性搜索，而是训练一个卷积神经网络来预测感兴趣的区域。MultiBox 能用单类预测来替代置信度预测来进行单目标检测。然而，MultiBox 不能进行一般物体检测，它只是大型检测通道的一小部分，需要进一步的图像块分类。YOLO和MultiBox都是在图像上使用卷积神经网络来预测边界框，但是YOLO是完整的检测系统。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_58

原文翻译：Overfeat。Sermanet at el. 训练一个卷积神经网络来进行定位和采用定位器来进行检测。Overfeat优化进行的滑动窗口检测，但它仍然是一个不相交的系统，Overfeat针对定位进行优化，没有检测性能。像DPM，当做预测的时候定位器只能看到局部信息。Overfeat不能推理全局的内容，这样需要显著的后处理来产生连贯的检测。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_59

原文翻译：MultiGrasp，我们的工作在设计上是和Redmon等人在抓取检测上是相似的。我们的网格方法基于多抓取系统做回归抓取来预测边界框。但是，抓取检测比目标检测简单多了，多抓取只是针对一个包含一个对象的图片仅仅需要来预测单个可抓取区域。他不同评估物体的大小，位置和边界或者它的分类。只需要找到一个适合抓取的区域。YOLO在一张图片中针对多物体多分类来预测边界框和类概率。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_60

原文翻译：首先我们在PASCAL VOC 2007 上比较YOLO和其他实时检测系统。为了搞清楚YOLO和R-CNN变体的不同，我们研究由YOLO和Fast-RCNN在VOC 2007产生的误差，Fast-RCNN，一个R-CNN表现最好的版本。基于不同的误差分布，我们证明了YOLO能够被用来重新评估Fast-RCNN的检测，并能够减低来自背景的假阳性的误差，显著的提高了性能。我们获得了VOC 2012的结果，并且与最先进的方法来比较平均精度。最后，我们证明了YOLO在两个artwork数据集上比其他的检测器在新领域上能更好的泛化。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_61

原文翻译：许多研究工作都集中在快速建立标准检测通道，然而，只有Sadeghi等人真正的研发出了实时检测系统（每秒30帧甚至更快），我们将YOLO与他们的GPU实现的DPM对比，后者能运行在30Hz或者100Hz。尽管其他的努力不能达到实时的里程碑。我们也对比他们相对平均精度和速度，来检查在物体检测系统在精度和性能上的权衡。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_62

原文翻译：Fast YOLO是在PASCAL上最快的物体检测方法。众所周知，他是最快的可扩展的物体检测器。有53.7%的平均精度，他是之前在实时检测的精度的两倍。YOLO将精度提升到了63.4%时仍然能维持他的实时性能。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_63

原文翻译：我们也用VGG-16来训练YOLO。这个模型是更精确的，但也明显的比YOLO更慢。比起其他的依赖于VGG-16的检测系统来说是很有用的，但是因为他比实时速度慢，因此将本文的其余部分重点放在我们的更快的模型上。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_64

原文翻译：最快的DPM优化提升了没有足够满足平均精度的DPM的速度，但是它因为两个原因仍然丢失了实时性能。他是被DPM在检测上相对低的精确度相对于神经网络的方法。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_65

原文翻译：R-CNN - R代替了静态边界框建议的选择性搜索。尽管他是比R-CNN快很多，他仍然在实时上有瑕疵，由于没有很好的建议，他在准确性受到了很大的打击。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_66

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_67

原文翻译：Fast R-CNN加速了R-CNN阶段的分类。但他仍然依赖于选择性搜索，它在每张图片上花费大概2秒来生成边界框建议。这样他有高的平均精度但是在0.5fps他仍然离实时性很远。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_68

原文翻译：最近更快速的R-CNN用神经网络代替选择性搜索提出边界框，跟Szegedy 等人的相似。在我们的实验中，他们最精确的模型实现了7帧每秒，而更小的、更不精确的一个模型运行速度为18帧每秒。Faster R-CNN的VGG-16版本高10个平均精度，但是比YOLO慢6倍。The zeilerFergus Faster-RCNN仅仅比YOLO慢2.5倍，但不够精确。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_69

原文翻译：为了更深一步的研究YOLO和最先进的检测器之间的不同，我们检查VOC 2007一些细节性的崩溃结果。我们比较了YOLO和Fast R-CNN，因为Fast R-CNN是在PASCAL上表现最好的检测器。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_70

原文翻译：我们是用Hoiem 等人的方法和工具，在测试时，我们查看对每个种类的前N个预测，每个预测要么正确，要么是基于误差类型分类的。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_71

论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_72

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_73

原文翻译：YOLO很难给对象正确的定位，定位误差很多的YOLO的误差的比例超过了其他来源的总和。Fast R-CNN 产生更少的定位误差但是有更多的背景误差。13.6%假阳性的顶级检测是没有包含任何对象的。Fast-R-CNN在预测背景检测的可能性是YOLO的3倍。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_74

原文翻译：YOLO比Fast-R-CNN产生更少的背景错误，通过使用YOLO来消除来自Fast R-CNN的背景检测，能显著提升性能。对于R-CNN预测的每一个边界框，我们检查YOLO是否预测了一个类似的框。如果是，我们将依据YOLO预先预测的概率和两个框重叠的部分来提高预测。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_75

论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_76

原文翻译：

论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_77

原文翻译：最好的Fast R-CNN模型在VOC 2007测试集上实现了71.8%平均精度。与YOLO结合后，它的平均精度上升了3.2%到75.0%。我们也尝试用不同版本的Fast R-CNN来结合顶尖的Fast R-CNN模型。这些结合的模型在平均精度上微弱的上升了.3%和.6%之间。详情看表2。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_78

原文翻译：YOLO的提升不是简单地模型堆加的副产品。因为不同版本的Fast R-CNN的结合并没用。相反，就是因为YOLO在测试时产生了不同的错误，才有效的提高了Fast R-CNN 的性能。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_79

原文翻译：不幸的是，这种结合不能从YOLO的速度中获益，因为我们独立地运行每个模型，然后整合结果。然而，因为YOLO太快了，与Fast R-CNN相比，它不会再增加任何重要的计算时间。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_80

原文翻译：在 VOC 2012的测试集上，YOLO平均精度得分为57.9%。这低于目前最先进的模型，更接近VGG-16原始R-CNN。见表3，跟它最接近的竞争者对比，我们的系统很难识别小物体。在种类上像瓶子、绵羊、电视、监控器，YOLO比R-CNN或者Feature Edit得分低8-10%。但是，在其他种类像猫和火车，YOLO有更高的性能。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_81

原文翻译：我们Fast R-CNN+YOLO模型是最好的进行检测的方法。Fast R-CNN通过和YOLO结合得到了2.3%的提升，在公共排行榜上提升了5位。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_82

原文翻译：在物体检测的同分布的学术数据集提取训练和测试数据。在真实的应用中，他是很难去预测用例的所有可能性的，并且所有的测试数据可能与之前在系统中看过的情况不同。我们将YOLO和其他的检测系统在Picasso数据集和People-Art 数据集比较，两个数据集是在艺术品上检测人。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_83

原文翻译：图5展示了YOLO和其他检测方法可比较的性能。为了参考，我们给VOC 2007在人上的检测平均精度，所有的模型都只能在 VOC 2007的数据上训练。Picasso模型是在VOC 2012上训练的，People-Art模型是在 VOC 2010上训练的。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_84

原文翻译：R-CNN在VOC 2007上有高的平均精度。但是，当应用到艺术作品上时，R-CNN的效果是大大下降的。R-CNN使用选择性搜索作为边界框建议调整为自然图像。在R-CNN上的分类器步骤只看到了小区域，需要更好的建议。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_85

原文翻译：当应用到艺术作品上时，DPM的平均精度维护的很好。先前的研究认为，DPM之所以表现得很好，因为他是很强大的对象的形状和布局的空间模型。尽管DPM的性能不如R-CNN。他是从低的平均精度开始的。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_86

原文翻译：YOLO在VOC 2007上有很好的的性能，当应用到艺术工作上时，它的精度比其他的方法更差。像DPM，YOLO建模的对象形状和大小，对象之间的关系和经常出现的对象位置。艺术工作品和自然景象在像素水平上有很大的不同，但是他们的对象的大小和形状是相似的。这样，YOLO能仍然预测好的边界框和检测。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_87

原文翻译：YOLO是一个快速精确地对象检测器，非常适合计算机视觉应用。我们将YOLO连接到网络摄像头，验证其保持实时性能，包括从相机中获取图片和检测结果的时间。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_目标检测_88

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_89

原文翻译：最终的系统是交互式、引人入胜的。尽管YOLO独自处理图像，但连接上网络摄像头时，它就像一个追踪系统，在物体移动和改变外观时检测它们。系统的demo和远到吗能在我们的项目网址上找到：https://pjreddie.com/darknet/yolo/.

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积神经网络_90

原文翻译：我们介绍YOLO，一个统一的目标检测模型，我们的模型构造简单并且能在直接在整个图像上训练。与基于分类器的方法不同，YOLO直接对应检测性能的损失函数进行训练，并对整个模型进行联合训练。

论文领读：You Only Look Once:Unified,Real-Time Object Detection_卷积_91

原文翻译：Fast YOLO是文献中最快的通用对象检测工具，YOLO推动了实时物体检测的发展。YOLO在新领域泛化非常好，这使得它非常适合依赖于快速、鲁棒的对象检测应用。

标签：Real,Unified,翻译,YOLO,检测,领读,CNN,原文,我们
From： https://blog.51cto.com/u_12606187/5959841

论文领读：You Only Look Once:Unified,Real-Time Object Detection

相关文章

赞助商

阅读排行