【Datawhale AI 夏令营2024--CV】Task2 阅读小结与尝试

时间：2024-08-29 22:56:40浏览次数：21

标签：Task2 边界 AI 模型 YOLO Datawhale 类别 Stage center

一、阅读小结

yolo不仅要识别物体的种类还要识别物体的位置

1.1、物体检测介绍：

1.输入：照片

可以利用opencv来提取照片的每一帧，在循环下对视频中每一帧的照片进行处理

    cap = cv2.VideoCapture(video_path)
    while True:
        ret, frame = cap.read()
        if not ret:
            break

2.特征提取：利用深度学习模型对图片进行特征提取

我的理解就是先对整个照片进行特征处理，然后在这个基础上在对图片进行处理

3.候选区域生成：在监测算法中基于区域的卷积神经网络来找到候选区域

就是在步骤二上找到可能的区域

4.区域分类和边界框回归：就是判断步骤三中候选的区域中有没有需要的目标物体，然后再预测周围的边界框应该就是bbox

5.非极大值抑制（NMS）：就是在众多的边界框中找到最合适的边界框

1.1.1、图片演示：

以下是我对上面的理解：

1.2、物体检测算法

One-Stage模型:通过baseline得知改模型是直接从照片上找到物体内别和位置，没有上面的候选区域，优点就是快但是不准确

Two-Stage模型：这个就是先有候选区域，然后再选择最佳的区域。精确度高但是慢

One-Stage模型通常在单个卷积网络中同时预测类别和位置，而Two-Stage模型则将检测任务分解为两个阶段：区域提议和候选区域的分类与定位。One-Stage模型因为省略了区域提议步骤，所以能够实现更快的检测速度，但这可能会以牺牲一些精度为代价。相比之下，Two-Stage模型通过两步过程提高了检测的准确性，但同时也增加了计算的复杂性和时间消耗。

1.3、YOLO

yolo是一种流行的实时目标检测算法，能直接从图像得到边界框坐标和类别概率的映射，以非常快的速度进行目标检测。

YOLO算法的一个显著特点是它在单个网络评估中同时预测多个边界框和类别概率，而不是像传统的滑动窗口方法那样多次评估。

YOLO使用一个卷积神经网络（CNN）来提取图像特征，然后使用这些特征来预测边界框和类别概率。YOLO的网络结构通常包括多个卷积层和池化层。

YOLO为每个边界框预测一个置信度，这个置信度反映了边界框包含目标的概率以及预测的类别。置信度的计算公式是：Pr(Object) * IOU(pred, truth)，其中Pr(Object)表示格子中存在目标的概率，IOU(pred, truth)表示预测框和真实框的交并比。

1.3.1、YOLO 数据集格式

使用.txt文件图像的标注信息。文件中写入物体的类别索引和边界

类别索引：每个物体的类别由一个整数索引表示，索引对应于预先定义的类别列表。

边界框坐标：边界框由其中心点坐标(x_center, y_center)和宽度width、高度height组成。这些值通常是归一化到图像宽度和高度的比例值，范围在0到1之间。

坐标格式：边界框坐标通常按照[class_index x_center y_center width height]的格式记录，其中class_index是类别索引，x_center和y_center是边界框中心点的x和y坐标，width和height是边界框的宽度和高度

class_index x_center y_center width height

在YOLO的训练过程中，这样的配置文件允许用户轻松地指定数据集的位置和类别信息，从而无需硬编码在训练脚本中。具体来说，这段配置的含义如下：

path: 指定了数据集的根目录路径，即所有数据子文件夹的上级目录。这里的路径是相对于当前配置文件的路径或者相对于执行训练脚本的工作目录。

train: 定义了训练集图像的相对路径。在训练模型时，程序会在指定的路径下查找图像文件。

val: 定义了验证集图像的相对路径。验证集用于在训练过程中评估模型性能，避免过拟合。

nc: 表示类别的数量，这里设置为2，意味着数据集中有两类物体需要被识别。

names: 是一个列表，包含了每个类别的名称。这里有两个类别，名称分别是"0"和"1"。这些名称在训练和测试过程中用于引用特定的类别。

二、尝试

在第一次的学习中我就扩大的数据集，训练集用了30个测试集用了10个，得到了0.2630537765973234的分数。

但是在后期不管是换模型还是筛选数据集或者调整batch以及epochs效果都不理想，

只有使用yolon8的模型把batch调到32，分数才突破0.2，但是效果还是yolon8batch为16的效果更好一点，我觉得应该是其他模型太复杂了。因为我用其他模型训练的时候，最后最好的权重始终是第一个。或许应该还是要在yolon8上找到合适的参数。

标签：Task2,边界,AI,模型,YOLO,Datawhale,类别,Stage,center
From： https://blog.csdn.net/2301_79866457/article/details/141688348

AI大模型上线必备清单：备案所需资料全解析
大模型上线备案所需资料（1）大模型上线备案表，包含以下具体内容：基本情况：模型名称、主要功能、适用人群、服务范围等。模型研制：模型备案情况、训练算力资源（自研模型）、训练语料和标注语料来源与规模、语料合法性、算法模型的架构和训练框架等。服务与安全防范：推理算力资源、服务方......
Datawhale AI 夏令营第五期 CV方向 02进阶
上次的baseline方案，训练的模型，获得分数并不高，DataWhale提供了两个上分的思路增加训练数据集切换不同模型预训练权重增加训练集的大小通常可以提高模型的泛化能力，因为更多的数据可以帮助模型学习到更多的特征和模式。但是，越大的数据集，就意味着需要更多的计算资源和时间来训......
插件开发：生成AI虚拟主播直播带货!
随着人工智能技术的飞速发展，AI虚拟主播在电商直播领域逐渐成为新宠，它们不仅具备无档期风险、人设稳定可控、24小时不间断直播等优势，还能通过智能交互显著提升用户体验和购买转化率。本文将深入探讨如何开发一个AI虚拟主播直播带货插件，并通过解析六段关键源代码，帮助读者理解这一复杂......
最高等级，首批通过！文心快码通过中国信通院可信AI智能编码工具评估
在当下这个快节奏的开发时代，每一个程序员都在追求更高效、更准确的编码方式。而在这个追求中，百度文心快码（BaiduComate）不负众望，从众多AI智能编码工具中脱颖而出，成为中国信通院首批“可信AI智能编码工具”评估中的佼佼者，荣获最高评级。想象一下，你正在为一段复杂的代码逻辑而苦恼，文心......
基于LangChain手工测试用例转Web自动化测试生成工具
在传统编写Web自动化测试用例的过程中，基本都是需要测试工程师，根据功能测试用例转换为自动化测试的用例。市面上自动生成Web或App自动化测试用例的产品无非也都是通过录制的方式，获取操作人的行为操作，从而记录测试用例。整个过程类似于但是通常录制出来的用例可用性、可维护性......
机器学习新手入门笔记03#AI夏令营#Datawhale X 李宏毅苹果书#夏令营
深度学习实践方法论在应用机器学习算法时，实践方法论能够帮助我们更好地训练模型。如果在Kaggle上的结果不太好，虽然Kaggle上呈现的是测试数据的结果，但要先检查训练数据的损失。看看模型在训练数据上面，有没有学起来，再去看测试的结果，如果训练数据的损失很大，显然它在训练集上面......
【专题】中国游戏产业AIGC发展前景报告合集PDF分享（附原数据表）
原文链接：https://tecdat.cn/?p=37535原文出处：拓端数据部落公众号近八成头部游戏企业在人工智能、数字孪生、引擎开发、云技术和XR等技术领域布局;有近六成头部游戏企业已构建AI生产管线、赋能虚拟内容生产或智能营销;此外，国内TOP50游戏厂商投资AI企业已超百次。阅读原文，获取专......
小琳AI课堂：使用ChatGPT API搭建系统(一)
大家好，这里是小琳AI课堂。今天我们来聊聊提示链的构建，这是一个非常有趣且实用的技术话题。提示链，简单来说，就是一系列逻辑上相互关联的提示，用于指导大型语言模型（如ChatGPTAPI）如何处理复杂交互和任务提示链的构建：学习者将学习如何建立与前面提示交互的提示链，这是实现复杂任......
小琳AI课堂：使用ChatGPT API搭建系统(二)
......
Php:Call to a member function fetch_all() on bool in ... #0 {main} thrown in ...
一、软件版本软件版本：phpstudy_proV8.2.9；二、错误描述在编写完连接数据库，执行相关的操作的代码之后，在浏览器运行时报如下错误：Fatalerror:UncaughtError:Calltoamemberfunctionfetch_all()onboolinD:\phpstudy_pro\WWW\test2.cc\contact.php:77St......