首页 > 其他分享 >Datawhale AI 夏令营 CV方向 Task 2

Datawhale AI 夏令营 CV方向 Task 2

时间:2024-08-29 10:50:21浏览次数:20  
标签:Task 边界 训练 AI 模型 YOLO Datawhale 物体 center

一、YOLO模型简介

        YOLO模型是在图像和视频中识别感兴趣物体对象,通常通过边界框形式来识别物体。以下是物体检测的一些关键概念和步骤:

  1. 输入:物体检测算法的输入通常是一张图像或视频帧。

  2. 特征提取:算法使用深度学习模型(如卷积神经网络CNN)来提取图像的特征。这些特征捕捉了图像中的视觉信息,为后续的物体识别和定位提供基础。

  3. 候选区域生成:在某些检测算法中,如基于区域的卷积神经网络(R-CNN)及其变体,首先需要生成图像中的候选区域,这些区域可能包含感兴趣的物体。

  4. 区域分类和边界框回归:对于每个候选区域,算法需要判断它是否包含特定类别的物体,并预测物体的边界框。这通常涉及到分类任务和回归任务的结合。

  5. 非极大值抑制(NMS):在检测过程中,可能会产生多个重叠的边界框,用于表示同一物体。NMS是一种常用的技术,用于选择最佳的边界框并去除多余的框。

        依据图像判别方式,图像识别可分为One stage 和Two stage两类模型。简单来说,One stage模型是直接依据单次网络识别图中所需对象。Two stage 使用区域提议网络(Region Proposal Network, RPN)生成候选区域,然后对这些区域进行分类和边界框的精细调整。这种方法的优点是精度高,但速度相对较慢。

二、YOLO的数据集格式 

        YOLO算法的标注格式主要使用.txt文件来存储图像中物体的标注信息。每个图像都有一个对应的.txt文件,文件中的每行表示一个物体的标注,包括物体的类别索引和边界框(bounding box)的坐标。以下是YOLO标注格式的详细介绍:

  1. 类别索引:用一个整数索引进行分类。

  2. 边界框坐标:边界框由其中心点坐标(x_center, y_center)和宽度width、高度height组成。这些值通常是归一化到图像宽度和高度的比例值,范围在0到1之间。

  3. 坐标格式:边界框坐标通常按照[class_index x_center y_center width height]的格式记录,其中class_index是类别索引,x_centery_center是边界框中心点的x和y坐标,widthheight是边界框的宽度和高度。

三 、YOLO训练日志

在使用YOLO进行训练时,生成的exp/detect/train类型的文件夹是训练过程中的一个关键组成部分。

  • 模型权重 (.pt.pth 文件): 训练过程中保存的模型权重,可以用于后续的测试或继续训练。

  • 日志文件 (.log 文件): 包含训练过程中的所有输出信息,如损失值、精度、速度等。

  • 配置文件 (.yaml.cfg 文件): 训练时使用的配置文件副本,记录了数据路径、类别名、模型架构等设置。

  • 图表和可视化: 有时YOLO会生成训练过程中的性能图表,如损失曲线、精度曲线等。

  • 测试结果: 如果训练过程中包括了测试阶段,可能会有测试结果的保存,如检测结果的图片或统计数据。

四、Baseline进阶思路

        通过如上介绍,你的或许已经了解一部分YOLO模型训练的规律。回顾赛题本身,由于要求是需要快速的识别违规行为,因此YOLO模型较为合适,那该如何提高模型预测准确性?

        首先,我们可以通过增加训练集数据,从而达到准确率的提升。最原始Baseline中仅仅将训练集设置为5,然而赛题所提供视频约有40个,因此增加训练数据可大大提升预测准确率。

        其次,可以切换不同模型的预训练权重,不同的模型,针对的识别对象不同,因此性能会有差异,切换不同模型预训练权重,可提高效率。

标签:Task,边界,训练,AI,模型,YOLO,Datawhale,物体,center
From: https://blog.csdn.net/2301_81185698/article/details/141653534

相关文章

  • SciTech-BigDataAIML-CV+CG-Digital Image/Signal Processing- RGB图片转换成 RGBA格
    RGBA与RGBRGB是Color(颜色)数值化为R(红色)、G(绿色)、B(蓝色)**三Channel(分量),每分量数值的取值范围为0-255。通过组合这三个ColorChannel(颜色分量)的不同数值,可以得到各种各样的颜色。RGBA是RGB颜色模型的一种扩展,只增加了一个表示透明度(Alpha)的透明分量(A)。A代......
  • Faiss了解
    Faiss是什么Faiss全称Facebook AISimilarity Search,是Facebook AI团队开源的相似性搜索工具,或者称为向量数据库。它是面向稠密向量高效的相似性检索以及聚类引擎,可实现在十亿级数据集上创建毫秒级的最邻近搜索(nearestneighborsearch)。Faiss用C++编写,并支持Python接口。除......
  • AirSlam C++ 代码学习
    问题1:reserve函数是什么?reserve是C++标准库中std::vector类的一个成员函数,用于预留一定数量的内存空间,以避免在向量增长时频繁进行内存分配和复制操作,从而提高性能。具体来说,reserve(n)会为向量预留至少n个元素的内存空间,但不会改变向量的大小(即不会添加任何元素)。这......
  • 偷偷用了这10款AI写作神器,再也没加过班!
    前言[自2022年Chat-GPT在全球掀起AI革命浪潮,AI开始在内容的生产方式进行颠覆性改变。其中,AI写作工具的崛起,为内容创作者打开了一个全新创作世界,无论用户在办公写作、自媒体写作还是兴趣写作,在效率方面都得到极大提高。可以说,一款好的AI写作工具,可以为你的工作实现“事半......
  • explain工具分析
    explain关键字可以分析查询语句或结构的性能瓶颈当我们想要查询一条sql的执行计划时在该条sql语句前面加上explain关键字即可例如表的结构如下:DROPTABLEIFEXISTS`actor`;CREATETABLE`actor`(  `id`int(11)NOTNULL,  `name`varchar(45)DEFAULTNULL......
  • 守护夏日清凉:EasyCVR+AI视频管理方案为水上乐园安全保驾护航
    随着夏季的来临,水上乐园成为了人们避暑消夏、亲子互动的理想去处。然而,随着游客量的激增,如何确保水上乐园的安全与秩序,提升游客体验,成为了管理者亟待解决的问题。为此,引入一套高效、智能的视频监控方案显得尤为重要。本文将详细介绍一种专为夏季水上乐园设计的视频智能监控方案,旨......
  • 网络防火墙之自定义chain
    网络防火墙自定义链链管理:-N:new,自定义一条新的规则链-X:delete,删除自定义的空的规则链-P:Policy,设置默认策略;对filter表中的链而言,其默认策略有:ACCEPT:接受DROP:丢弃-E:重命名自定义链;引用计数不为0的自定义链不能够被重命名,也不能被删除 ......
  • AutoSynth: Learning to Generate 3D Training Datafor Object Point Cloud Registrat
    目录一、导言二、先导知识1、进化算法概述2、4pcs算法3、Super4PCS算法三、相关工作1、传统点云配准工作2、基于深度学习的点云配准3、生成训练数据集四、AutoSynth框架1、搜索空间2、进化算法3、代理任务模型五、实验 1、测试数据集2、BOP评估指标3、对比实......
  • 小琳AI课堂:Transformer模型
    大家好,这里是小琳AI课堂!今天我们来聊聊一个在自然语言处理(NLP)领域取得了革命性进展的深度学习架构——Transformer模型!......
  • 小琳AI课堂:DQN强化神经
    大家好,这里是小琳AI课堂!今天我们来聊聊一个超级酷炫的算法——DQN(深度Q网络)!......