Datawhale AI 夏令营 CV方向 Task 2

时间：2024-08-29 10:50:21浏览次数：20

标签：Task 边界训练 AI 模型 YOLO Datawhale 物体 center

一、YOLO模型简介

YOLO模型是在图像和视频中识别感兴趣物体对象，通常通过边界框形式来识别物体。以下是物体检测的一些关键概念和步骤：

输入：物体检测算法的输入通常是一张图像或视频帧。
特征提取：算法使用深度学习模型（如卷积神经网络CNN）来提取图像的特征。这些特征捕捉了图像中的视觉信息，为后续的物体识别和定位提供基础。
候选区域生成：在某些检测算法中，如基于区域的卷积神经网络（R-CNN）及其变体，首先需要生成图像中的候选区域，这些区域可能包含感兴趣的物体。
区域分类和边界框回归：对于每个候选区域，算法需要判断它是否包含特定类别的物体，并预测物体的边界框。这通常涉及到分类任务和回归任务的结合。
非极大值抑制（NMS）：在检测过程中，可能会产生多个重叠的边界框，用于表示同一物体。NMS是一种常用的技术，用于选择最佳的边界框并去除多余的框。

依据图像判别方式，图像识别可分为One stage 和Two stage两类模型。简单来说，One stage模型是直接依据单次网络识别图中所需对象。Two stage 使用区域提议网络（Region Proposal Network, RPN）生成候选区域，然后对这些区域进行分类和边界框的精细调整。这种方法的优点是精度高，但速度相对较慢。

二、YOLO的数据集格式

YOLO算法的标注格式主要使用.txt文件来存储图像中物体的标注信息。每个图像都有一个对应的.txt文件，文件中的每行表示一个物体的标注，包括物体的类别索引和边界框（bounding box）的坐标。以下是YOLO标注格式的详细介绍：

类别索引：用一个整数索引进行分类。
边界框坐标：边界框由其中心点坐标(x_center, y_center)和宽度width、高度height组成。这些值通常是归一化到图像宽度和高度的比例值，范围在0到1之间。
坐标格式：边界框坐标通常按照[class_index x_center y_center width height]的格式记录，其中class_index是类别索引，x_center和y_center是边界框中心点的x和y坐标，width和height是边界框的宽度和高度。

三、YOLO训练日志

在使用YOLO进行训练时，生成的exp/detect/train类型的文件夹是训练过程中的一个关键组成部分。

模型权重 (.pt 或 .pth 文件): 训练过程中保存的模型权重，可以用于后续的测试或继续训练。
日志文件 (.log 文件): 包含训练过程中的所有输出信息，如损失值、精度、速度等。
配置文件 (.yaml 或 .cfg 文件): 训练时使用的配置文件副本，记录了数据路径、类别名、模型架构等设置。
图表和可视化: 有时YOLO会生成训练过程中的性能图表，如损失曲线、精度曲线等。
测试结果: 如果训练过程中包括了测试阶段，可能会有测试结果的保存，如检测结果的图片或统计数据。

四、Baseline进阶思路

通过如上介绍，你的或许已经了解一部分YOLO模型训练的规律。回顾赛题本身，由于要求是需要快速的识别违规行为，因此YOLO模型较为合适，那该如何提高模型预测准确性？

首先，我们可以通过增加训练集数据，从而达到准确率的提升。最原始Baseline中仅仅将训练集设置为5，然而赛题所提供视频约有40个，因此增加训练数据可大大提升预测准确率。

其次，可以切换不同模型的预训练权重，不同的模型，针对的识别对象不同，因此性能会有差异，切换不同模型预训练权重，可提高效率。

标签：Task,边界,训练,AI,模型,YOLO,Datawhale,物体,center
From： https://blog.csdn.net/2301_81185698/article/details/141653534

SciTech-BigDataAIML-CV+CG-Digital Image/Signal Processing- RGB图片转换成 RGBA格
RGBA与RGBRGB是Color(颜色)数值化为R(红色)、G(绿色)、B(蓝色)**三Channel(分量)，每分量数值的取值范围为0-255。通过组合这三个ColorChannel(颜色分量)的不同数值，可以得到各种各样的颜色。RGBA是RGB颜色模型的一种扩展，只增加了一个表示透明度(Alpha)的透明分量(A)。A代......
Faiss了解
Faiss是什么Faiss全称Facebook AISimilarity Search，是Facebook AI团队开源的相似性搜索工具，或者称为向量数据库。它是面向稠密向量高效的相似性检索以及聚类引擎,可实现在十亿级数据集上创建毫秒级的最邻近搜索（nearestneighborsearch）。Faiss用C++编写，并支持Python接口。除......
AirSlam C++ 代码学习
问题1：reserve函数是什么？reserve是C++标准库中std::vector类的一个成员函数，用于预留一定数量的内存空间，以避免在向量增长时频繁进行内存分配和复制操作，从而提高性能。具体来说，reserve(n)会为向量预留至少n个元素的内存空间，但不会改变向量的大小（即不会添加任何元素）。这......
偷偷用了这10款AI写作神器，再也没加过班！
前言[自2022年Chat-GPT在全球掀起AI革命浪潮，AI开始在内容的生产方式进行颠覆性改变。其中，AI写作工具的崛起，为内容创作者打开了一个全新创作世界，无论用户在办公写作、自媒体写作还是兴趣写作，在效率方面都得到极大提高。可以说，一款好的AI写作工具，可以为你的工作实现“事半......
explain工具分析
explain关键字可以分析查询语句或结构的性能瓶颈当我们想要查询一条sql的执行计划时在该条sql语句前面加上explain关键字即可例如表的结构如下：DROPTABLEIFEXISTS`actor`;CREATETABLE`actor`( `id`int(11)NOTNULL, `name`varchar(45)DEFAULTNULL......
守护夏日清凉：EasyCVR+AI视频管理方案为水上乐园安全保驾护航
随着夏季的来临，水上乐园成为了人们避暑消夏、亲子互动的理想去处。然而，随着游客量的激增，如何确保水上乐园的安全与秩序，提升游客体验，成为了管理者亟待解决的问题。为此，引入一套高效、智能的视频监控方案显得尤为重要。本文将详细介绍一种专为夏季水上乐园设计的视频智能监控方案，旨......
网络防火墙之自定义chain
网络防火墙自定义链链管理：-N：new,自定义一条新的规则链-X：delete，删除自定义的空的规则链-P：Policy，设置默认策略；对filter表中的链而言，其默认策略有：ACCEPT：接受DROP：丢弃-E：重命名自定义链；引用计数不为0的自定义链不能够被重命名，也不能被删除 ......
AutoSynth: Learning to Generate 3D Training Datafor Object Point Cloud Registrat
目录一、导言二、先导知识1、进化算法概述2、4pcs算法3、Super4PCS算法三、相关工作1、传统点云配准工作2、基于深度学习的点云配准3、生成训练数据集四、AutoSynth框架1、搜索空间2、进化算法3、代理任务模型五、实验 1、测试数据集2、BOP评估指标3、对比实......
小琳AI课堂：Transformer模型
大家好，这里是小琳AI课堂！今天我们来聊聊一个在自然语言处理（NLP）领域取得了革命性进展的深度学习架构——Transformer模型！......
小琳AI课堂：DQN强化神经
大家好，这里是小琳AI课堂！今天我们来聊聊一个超级酷炫的算法——DQN（深度Q网络）！......

Datawhale AI 夏令营 CV方向 Task 2

一、YOLO模型简介

二、YOLO的数据集格式

三、YOLO训练日志

四、Baseline进阶思路

相关文章

赞助商

阅读排行

Datawhale AI 夏令营 CV方向 Task 2

一、YOLO模型简介

二、YOLO的数据集格式

三 、YOLO训练日志

四、Baseline进阶思路

相关文章

赞助商

阅读排行

三、YOLO训练日志