首页 > 其他分享 >YOLO-NAS姿态简介:姿态估计技术的飞跃

YOLO-NAS姿态简介:姿态估计技术的飞跃

时间:2023-12-29 11:34:47浏览次数:38  
标签:姿势 YOLO 模型 Pose NAS 姿态

原创 | 文 BFT机器人

YOLO-NAS姿态简介:姿态估计技术的飞跃_数据集


YOLO-NAS姿态模型是对姿态估计领域的最新贡献。今年早些时候,Deci凭借其开创性的物体检测基础模型YOLO-NAS获得了广泛认可。在YOLO-NAS成功的基础上,该公司现在推出了YOLO-NAS Pose作为其姿态估计的对应产品,这种姿势模型在延迟和准确性之间提供了很好的平衡。


YOLO-NAS姿态简介:姿态估计技术的飞跃_权重_02

YOLO-NAS姿势


姿态估计在计算机视觉中起着至关重要的作用,涵盖了广泛的重要应用。这些应用包括监测医疗保健中的患者运动、分析运动员在运动中的表现、创建无缝的人机界面以及改进机器人系统。


01


YOLO-NAS姿态模型架构


2.1 基于规划空间的分类及特点


传统的姿态估计模型遵循以下两种方法之一:


  1. 检测场景中的所有人物,然后估计其关键点并创建姿势,自上而下的两阶段过程;
  2. 检测场景中的所有关键点,然后生成姿势,自下而上的两阶段过程。


YOLO-NAS Pose与传统的Pose Estimation模型相比,其工作方式有所不同。它不是先检测人,然后估计他们的姿势,而是可以在一个步骤中同时检测和估计人及其姿势。

YOLO-NAS姿态简介:姿态估计技术的飞跃_权重_03

YOLO-NASPose架构–骨干和颈部设计


姿势模型建立在YOLO-NAS目标检测架构之上,目标检测模型和姿态估计模型具有相同的脊柱和颈部设计,但头部不同。YOLO-NAS Pose的头部专为其多任务目标而设计,即检测单个类别的物体(如人或动物)并估计物体的姿势。

YOLO-NAS姿态简介:姿态估计技术的飞跃_数据集_04

YOLO-NAS Pose架构–头部设计


这种令人印象深刻的组合是Deci专有的神经架构搜索(NAS)引擎AutoNAC的结果,它在广阔的架构搜索空间中导航并返回最佳架构设计。以下是搜索的超参数:

  • 姿势和框回归路径的Conv-BN-Relu块数;
  • 两条路径的中间通道数;
  • 在姿势/框回归的共享词干或不同词干之间做出决定。


YOLO-NASPose模型在COCOVal2017数据集上进行评估,该模型的准确性和延迟是最先进的。nano模型速度最快,在T4GPU上达到高达425fps的推理速度,同时大模型可以达到113fps。


YOLO-NAS姿态简介:姿态估计技术的飞跃_权重_05

COCOVal2017数据集上的YOLO-NAS姿态评估


02


YOLO-NAS与YOLOv8姿势2.1 基于规划空间的分类及特点


下图是YOLO-NAS Pose和YOLOv8Pose模型的精度延迟权衡。这个空间也被称为效率前沿。所有模型均在COCOVal2017数据集和英特尔至强第四代CPU上进行评估,具有1个批处理大小和16位浮点运算。


YOLO-NAS姿态简介:姿态估计技术的飞跃_数据集_06

YOLO-NAS姿势与YOLOv8姿势高效前沿图


所有YOLO-NAS Pose模型的精度都高于YOLOv8 Pose模型,这可以被认可到AutoNAC的头部设计中,具体的细节是:



  • 较小的YOLO-NAS Pose模型,即nano和small,虽然精度更高,但比YOLOv8Pose模型慢。
  • 较大的YOLO-NAS Pose型号,如中型和大型,在准确性和延迟方面都更好。


03


姿势模型是如何训练的?

2.1 基于规划空间的分类及特点


YOLO-NAS姿态损失功能


为了确保模型有效地学习这两个任务,Deci改进了训练中使用的损失函数。我们不仅考虑了分配框的IoU(交集与并集)分数,还合并了对象关键点相似性(OKS)分数,该分数将预测的关键点与实际的关键点进行比较,此更改鼓励模型对边界框和姿态估计进行准确预测。此外,还采用了直接OKS回归技术,超越了传统的L1/L2损失方法,这种方法具有以下几个优点:


  • 它在0到1的范围内运行,类似于框IoU,表示姿势的相似程度。
  • 它考虑了注释特定关键点的不同难度,每个关键点都与唯一的sigma分数相关联,该分数反映了注释和数据集细节的准确性,分数决定了模型因做出不准确的预测而受到的惩罚程度。
  • 使用与验证指标一致的损失函数,这反过来又允许对指标进行定位和优化。


YOLO-NAS姿态简介:姿态估计技术的飞跃_数据集_07

YOLO-NAS姿态估计

训练超参数


由于YOLO-NAS Pose采用了与YOLO-NAS模型类似的基础结构,因此在进行最终训练之前,使用YOLO-NAS的预训练权重来初始化模型的骨架和颈部。以下是训练超参数:


  • 训练硬件:使用了8个NVIDIAGeForceRTX3090GPU和PyTorch2.0。
  • 培训计划:培训进行了长达1000个epoch,如果在过去100个epoch中表现没有改善,则提前停止。
  • 优化器:采用具有余弦LR(学习率)衰减的AdamW,在训练结束时将LR降低0.05倍。
  • 权重衰减:应用了0.000001的权重衰减因子,不包括偏差层和BatchNorm层。
  • EMA(指数移动平均线)衰减:使用50的beta因子进行EMA衰减。
  • 图像分辨率:图像经过处理后,最大边长为640像素,填充分辨率为640×640,填充颜色为(127,127,127)。


若您对该文章内容有任何疑问,请与我们联系,我们将及时回应。

YOLO-NAS姿态简介:姿态估计技术的飞跃_权重_08

标签:姿势,YOLO,模型,Pose,NAS,姿态
From: https://blog.51cto.com/bftrobot/9025045

相关文章

  • 手部关键点检测2:YOLOv5实现手部检测(含训练代码和数据集)
    手部关键点检测2:YOLOv5实现手部检测(含训练代码和数据集)目录手部关键点检测2:YOLOv5实现手部检测(含训练代码和数据集)1.前言2.手部检测数据集说明(1)手部检测数据集(2)自定义数据集3.基于YOLOv5的手部检测模型训练(1)YOLOv5安装 (2)准备Train和Test数据(3)配置数据文件(4)配置模型文件(5)重......
  • YOLOv5:将模型预测结果保存为Labelme格式的Json文件
    YOLOv5:将模型预测结果保存为Labelme格式的Json文件前言前提条件相关介绍实验环境YOLOv5:将模型预测结果保存为Labelme格式的Json文件代码实现进行预测输出结果前言由于本人水平有限,难免出现错漏,敬请批评改正。更多精彩内容,可点击进入Python日常小操作专栏、OpenCV-Python小应用专......
  • 如何将铁威马NAS设置为固定IP?
    首先你需要配置正确的TNAS的网络设置,否则TNAS将无法连接到互联网或无法被访问。你可以在网络接口中设置TNAS的网络接口参数。TNAS设备可能配置有一个,两个或者两个以上的网络接口。你可以对网络接口逐一进行设置。1、登录铁威马TOS系统,打开控制面板,选择网络; 2、打开网络,......
  • 人工智能大模型原理与应用实战:从YOLO到Faster RCNN
    1.背景介绍人工智能(ArtificialIntelligence,AI)是一门研究如何让计算机自主地完成人类常见任务的学科。在过去的几年里,人工智能技术的发展取得了显著的进展,尤其是在深度学习(DeepLearning)领域。深度学习是一种通过神经网络模拟人类大脑工作原理的机器学习方法,它已经被广泛应用于图......
  • 人工智能大模型原理与应用实战:从RetinaNet到YOLOv4
    1.背景介绍人工智能(ArtificialIntelligence,AI)是指一种使计算机具有人类智能的科学和技术。人工智能的主要目标是让计算机能够理解自然语言、进行逻辑推理、学习自主行动、理解视觉和听觉等。人工智能的应用范围非常广泛,包括自然语言处理、计算机视觉、机器学习、深度学习、人工......
  • MoveNet:超快且准确的姿态检测模型
    转载:https://zhuanlan.zhihu.com/p/569457464官方说明:https://www.tensorflow.org/hub/tutorials/movenet?hl=zh-cnncnn:https://github.com/FeiGeChuanShu/ncnn_Android_MoveNetgithub:https://github.com/tensorflow/docs-l10n/blob/master/site/zh-cn/hub/tutorials/movene......
  • YOLOV8解读--分类模型训练与预测
    YOLOV8命名不同于V5系列,V8不强调yolo这一模型,更加强调其框架属性,所以V8在github上的项目名为 ultralytics。所以在下载代码时不要怀疑,就是这个地址:https://github.com/ultralytics/ultralytics下边写基于V8模型做分类的方法数据集部分分类模型的数据集与V5的检测或分割最大的不用......
  • m基于Yolov2深度学习网络的驾驶员打电话行为预警系统matlab仿真,带GUI界面
    1.算法仿真效果matlab2022a仿真结果如下:2.算法涉及理论知识概要随着汽车数量的不断增加,交通安全问题日益突出。其中,驾驶员手持电话行为是导致交通事故的一个重要原因。为了降低这类事故的发生率,本文提出了一种基于Yolov2深度学习网络的驾驶员手持电话行为预警系统。该系统能够......
  • m基于Yolov2深度学习网络的驾驶员打电话行为预警系统matlab仿真,带GUI界面
    1.算法仿真效果matlab2022a仿真结果如下: 2.算法涉及理论知识概要       随着汽车数量的不断增加,交通安全问题日益突出。其中,驾驶员手持电话行为是导致交通事故的一个重要原因。为了降低这类事故的发生率,本文提出了一种基于Yolov2深度学习网络的驾驶员手持电话行......
  • Cnas认证路上你关心的那些个问题
    1只申请了CNAS没有申请CMA对外出报告合规吗答:看报告用途,检验检测机构资格认定管理办法当中有明确的说明,在中华人民共和国境内同时向社会出具具有证明作用的数据和结果的检测活动应当遵守本办法,也就是必须要取得CMA的资质认定,这是一条强制性要求,CNAS实验室认可的申请范围比CMA的资质......