首页 > 其他分享 >【发疯毕设日志day7】hagrid_dataset_512数据集作者论文原文逐句翻译——大疆tello手势识别起飞——更换成手势数据集hagrid_dataset_512

【发疯毕设日志day7】hagrid_dataset_512数据集作者论文原文逐句翻译——大疆tello手势识别起飞——更换成手势数据集hagrid_dataset_512

时间:2024-03-23 21:34:21浏览次数:31  
标签:hagrid 静态 数据 HGR dataset 系统 识别 512 手势

论文原文::::2206.08219.pdf (arxiv.org)icon-default.png?t=N7T8https://arxiv.org/pdf/2206.08219.pdf

摘要

          本文介绍了一个庞大的手势识别数据集——海格(HAnd Gestrue Recognition Image dataset),以简历一个手势识别(HGR)系统,专注于与设备的交互管理。这就是为什么所选的18个手势都呗赋予了符号学功能,可以被解释为一个特定的动作。虽然这些手势是静态的,但是他们还是被选中了,尤其是因为他们能够设计出多种动态手势。它使训练好的模型,不仅能识别 "喜欢 "和 "停止 "等静态手势,还能识别 "轻扫 "和 "拖放 "等动态手势。HaGRID 包含 554,800 张图像和带有手势标签的边界框注释,可用于解决手部检测和手势分类任务。其他数据集的背景和研究对象的可变性较低,这也是我们创建不受这些限制的数据集的原因。利用众包平台,我们收集到了 37,583 个拍摄对象在至少同样多的场景中拍摄的样本,拍摄对象与相机之间的距离从 0.5 米到 4 米不等,拍摄条件也各不相同。在消融研究实验中评估了多样性特征的影响。此外,我们还展示了 HaGRID 在 HGR 任务中用于预训练模型的能力。HaGRID 和预训练模型可公开获取。

1. Introduction(简介)

手势在人类交流中发挥着至关重要的作用。手势可以在情感上强化语句,甚至能完全替代语句。由于人们在现实生活中普遍使用手势,因此在汽车领域[27]、[26]、家庭自动化系统[3]、多媒体应用、各种视频/流媒体平台(Zoom、Skype、Discord、Jazz 等)以及其他领域[10]、[5],构建 HGR 系统可以改善用户体验并加快流程。此外,该系统还可以成为虚拟助手或服务的一部分,为听力和语言障碍的手语用户提供服务[9], [24] 。

我们研究的主要目的是建立 HGR 系统,以便在带有虚拟助手的家庭自动化设备和视频会议服务 Jazz5 中实施。首先,这套手势必须直观[30]且简单明了,以便系统用户能够记住它们,进行舒适的交互。

此外,在设计 HGR 系统时,还应配上适合控制该系统的手势,以及 "fergotic "功能[8]。在我们的例子中,语义手势的目的是人与计算机之间共享信息,以获得系统的响应,可以是静态的,也可以是动态的。我们也注意到了其他姿态识别使用者的体验。例如,节奏舞者使用我们的设备时候,需要识别到画面中的双手,这在box markup当中是不可能的。此外,在极端光照和被摄体与摄像机距离较大等挑战性条件下,边界框标注比关键点标注更稳定。

在本文的第 5 部分,我们提供了一组数据集消融实验,以探索数据集特征对作为分类和检测问题的 HGR 解算结果的影响程度。此外,我们还通过实验证明,HaGRID 可以作为预训练 HGR 模型的充分数据集,并进行了如下微调。

2.Related Work(相关工作)

2.1. Hand Gesture Datasets

至少有50个与手部动作相关的数据集,这些数据集大体上可以分为三类:手语、旗语、和操作手势。第一类——手语,第一组数据集提出了复杂的动态手势,这些手势更适用于其原始目的,而对于我们要求直接动作的目标来说则是多余的。后两组数据应用于家庭自动化系统和人机交互,并相应地发挥了符号学和人机工程学的作用。 由于我们的目标是建立一个以符号作用为主的 HGR 系统,仅使用启发式方法添加操作性手势,因此本节仅对具有静态手势的数据集进行回顾。

由于 HGR 系统的用户可能会在距离设备较远的地方显示手势,因此模型需要捕捉整个画面,并在其中搜索人的手。然而,一些包含静态手势的数据集是为独立于人的系统设计的,包含的样本中没有人体,只有手的部分,即经过裁剪的手部图像 [16] [18],这就是为什么它们不适合我们的原因。静态手势数据集经常使用以下标记类型或其组合进行标记:类别标签、边界框、关键点和分割标记。

我们需要在multiple-hand画面上无差错地工作,因此只有类别标记是不够的。分割掩码是多余的,不适合这项任务,因为它们无法很好地对与手势如此相似的物体进行分类,而关键点则无法使用,因为它们在长距离内会粘连在一起。据我们所知,目前仅有 4 个数据集可用于带有背景和适当注释的静态手势识别,包括 HANDS [25]、SHAPES [2]、OUHANDS [22] 和 LaRED [13]。

它们的区别在于样本数量、图像分辨率、类别数量、负样本的存在、场景的同质性以及摄像机与每个被摄体之间的距离。SHAPE 和 OUHANDS 用边界框和分割掩码标记;LaRED 仅用掩码标记,而 HANDS 仅用边界框标记,上述数据集不适合用于

标签:hagrid,静态,数据,HGR,dataset,系统,识别,512,手势
From: https://blog.csdn.net/pythonAk47vt/article/details/136932546

相关文章

  • 【力扣刷题日记】512.游戏玩法分析II
    前言练习sql语句,所有题目来自于力扣(https://leetcode.cn/problemset/database/)的免费数据库练习题。今日题目:512.游戏玩法分析II表:Activity列名类型player_idintdevice_idintevent_datedategames_playedint(player_id,event_date)是这个表的两个主键(具有唯一值的列......
  • 【深度学习实践】HaGRID,YOLOv5,手势识别项目,目标检测实践项目
    文章目录数据集介绍下载数据集将数据集转换为yolo绘制几张图片看看数据样子思考类别是否转换下载yolov5修改数据集样式以符合yolov5创建dataset.yaml训练参数开始训练训练分析推理模型转换onnx重训一个yolov5s后记数据集介绍https://github.com/hukenovs/hagridHaG......
  • C# EPPlus导出dataset----Excel2绘制图像
    一、生成折线图方法 ///<summary>    ///生成折线图    ///</summary>    ///<paramname="worksheet">sheet页数据</param>    ///<paramname="colcount">总列数</param>    ///<paramname="......
  • 5-1Dataset和DataLoader
    Pytorch通常使用Dataset和DataLoader这两个工具类来构建数据管道。Dataset定义了数据集的内容,它相当于一个类似列表的数据结构,具有确定的长度,能够用索引获取数据集中的元素。而DataLoader定义了按batch加载数据集的方法,它是一个实现了__iter__方法的可迭代对象,每次迭代输出一个......
  • dataset 判断整列是否有重复,找出重复数据
    DataTabledt=ds.Tables[0];DataViewdv=newDataView(dt);if(dv.Count!=dv.ToTable(true,jsonColumnNameNo).Rows.Count){......
  • cnpack支持调试状态查看TDataSet对象
    在Debug状态下,cnpack支持查看TDataSet对象了!具体用法:在Debug状态下运行项目,如下图:把鼠标放到q对象上,q是一个基于TDataSet继承来的TkbmMWClientQuery对象,也就是他是一个TDataSet,这时候会弹出一个窗口,也就是一个hint。注意左上角的放大镜,下移鼠标,让鼠标进入hint区域,点击放大镜......
  • (23)lazarus memdataset的filter问题
    参考https://www.cnblogs.com/qiufeng2014/p/17388138.html链接:https://pan.baidu.com/s/1ayzgDbXjgXBnw-jM1FR4gA提取码:ogqzunitUnit1;{$modeobjfpc}{$H+}interfaceusesClasses,SysUtils,memds,db,Forms,Controls,Graphics,Dialogs,DBGrids;type{TForm1......
  • 李宏毅2022机器学习HW4 Speaker Identification上(Dataset &Self-Attention)
    Homework4Dataset介绍及处理Datasetintroduction训练数据集metadata.json包括speakers和n_mels,前者表示每个speaker所包含的多条语音信息(每条信息有一个路径feature_path和改条信息的长度mel_len或理解为frame数即可),后者表示滤波器数量,简单理解为特征数即可,由此可知每个.pt......
  • Characterizing Graph Datasets for Node Classification Homophily-Heterophily Dich
    目录概符号说明Popularhomophilymeasures理想的准则现有的metrics的分析PlatonovO.,KuznedelevD.,BabenkoA.andProkhorenkovaL.Characterizinggraphdatasetsfornodeclassification:homophily-heterophilydichotomyandbeyond.NIPS,2023.概阐述合理的......
  • [转帖]AVX-512指令集的前世今生
    https://zhuanlan.zhihu.com/p/136099964 什么是指令集计算机上的任何程序最终要编译成一条条指令才能让CPU识别并执行,指令集是指CPU能执行的所有指令的集合,每一指令对应一种操作,CPU依靠指令来计算和控制系统,指令执行能力是衡量CPU性能的重要指标,指令集也与CPU效率有密......