首页 > 其他分享 >[Paper Reading] Reconstructing Hands in 3D with Transformers

[Paper Reading] Reconstructing Hands in 3D with Transformers

时间:2024-08-20 18:05:26浏览次数:15  
标签:2D Transformer Transformers 模型 Reconstructing Paper 参数 MANO 3D

名称

Reconstructing Hands in 3D with Transformers
时间:CVPR2024
机构:UC Berkeley, University of Michigan, New York University

TL;DR

本文提出一种使用Transformer来做Hand Tracking的算法名为HaMeR(Hand Mesh Recorvery),优势是大数据规模(利用多数据集的2D/3D标签),大模型(大Size的纯Transformer模型架构)。

Method


算法架构方面亮点是使用了纯Transformer架构(Backbone使用VIT,Head使用Transformer Decoder),不过是单目的算法。
模型
Head:预测Mano参数、3D关键点、2D关键点、相机参数(用来将3D投影至2D)
Loss:除了监督上述输出的L1/L2 Loss之外,还有一个adversarial Loss,用来判断生成的MANO参数是否是unnature的。
数据
建立HInt数据集,从Hands23、Epic-Kitchens以及Ego4D三个数据集挑选部分数据,并经过人工筛选,最终获取40.4K样本。

Code

Code Link

分析一下hamer.py,Q1:模型Backbone是什么?Q2:transformer decoder head的模型架构是如何设计的?Q3:模型Loss是什么设计的?Q4:模型输出的shape是什么? FromKimiChat 基于提供的 hamer.py 文件内容,以下是对您问题的回答:

Q1: 模型是如何预测MANO参数的?

模型使用一个Transformer解码器头(MANOTransformerDecoderHead)来预测MANO参数。
输入图像通过骨干网络(如Vision Transformer, ViT)提取特征,然后这些特征被送入Transformer解码器。
Transformer解码器利用交叉注意力机制来整合图像特征和上下文信息,生成MANO参数。
预测的MANO参数包括手部姿态(hand_pose)、形状参数(betas)和全局方向(global_orient)。
通过迭代细化过程(IEF_ITERS)来逐步优化参数预测。
Q2: Transformer Decoder Head的模型架构是如何设计的?

Transformer解码器头由多个层组成,每层包括自注意力和交叉注意力机制。
输入特征首先被转换为一系列的token,然后送入Transformer解码器。
每个Transformer层后跟一个线性层(解码器),用于将特征映射到MANO参数空间。
位置编码被添加到token中,以提供序列中的位置信息。
迭代预测允许模型在多个阶段细化其预测。
Q3: 模型Loss是什么设计的?

模型使用多种损失函数来训练网络,包括:
关键点2D损失(Keypoint2DLoss):计算预测的2D关键点与真实标注之间的差异。
关键点3D损失(Keypoint3DLoss):计算预测的3D关键点与真实标注之间的差异。
MANO参数损失(ParameterLoss):计算预测的MANO参数与真实参数之间的差异。
所有这些损失被加权求和,形成总损失,用于模型的反向传播和优化。
Q4: 模型输出的shape是什么?

模型输出包括:
预测的2D关键点(pred_keypoints_2d):形状可能是[batch_size, num_keypoints, 2]。
预测的3D关键点(pred_keypoints_3d):形状可能是[batch_size, num_keypoints, 3]。
MANO参数,包括:
global_orient:全局方向,形状可能是[batch_size, num_joints, 3]。
hand_pose:手部姿态,形状可能是[batch_size, num_joints * 3]。
betas:形状参数,形状可能是[batch_size, num_betas]。
摄像机平移(pred_cam_t):形状可能是[batch_size, 3]。
Q5: 顶点是直接预测出来的,还是通过预测出MANO参数FK出来的?

顶点不是直接预测出来的。模型预测MANO参数,然后使用这些参数作为输入来生成3D人体网格。
MANO模型根据提供的参数,包括姿态、形状和全局方向,通过正向运动学(FK)计算出网格的顶点。
Q6: 摄像机平移参数有什么用处?

摄像机平移参数(pred_cam_t)是用于3D到2D投影的关键参数,它们定义了虚拟摄像机的位置和视角。
这些参数对于将3D人体网格准确地投影到2D图像平面上至关重要,使得预测的3D姿态能够与输入图像中的实际人体姿态对齐。
它们通常与摄像机的旋转和缩放参数一起工作,以实现精确的视角和尺寸匹配。
以上信息是基于提供的 hamer.py 文件内容进行的分析。如果需要更详细的解释或有其他文件提供了额外的上下文,可能需要进一步的分析。

Experiment

两个经典测试集上的效果表现

Ablation

总结与发散

亮点是使用纯Transformer
使用adversarial Loss是创新点之一,文章没有做ablation应该提升不大

相关链接

资料查询

折叠Title FromChatGPT(提示词:XXX)

标签:2D,Transformer,Transformers,模型,Reconstructing,Paper,参数,MANO,3D
From: https://www.cnblogs.com/fariver/p/18370002

相关文章

  • 【目标检测】Transformers在小目标检测中的应用:最新技术的基准测试和调查
    《TransformersinSmallObjectDetection:ABenchmarkandSurveyofState-of-the-Art》Transformers在小目标检测中的应用:最新技术的基准测试和调查原文:https://arxiv.org/abs/2309.049021研究背景和目的小目标检测(SOD)对现有目标检测方法具有挑战性,而Transformer......
  • 2024 Read Paper
    202408161.PhD,SearchingforpulsarsintheGalacticcentreandthetimingofamassivepulsar2.TheHighTimeResolutionUniversePulsarsurvey-XVIII.ThereprocessingoftheHTRU-SLowLatsurveyaroundtheGalacticCentreusingaFastFoldingAlgo......
  • [Paper Reading] Single-to-Dual-View Adaptation for Egocentric 3D Hand Pose Estim
    名称Single-to-Dual-ViewAdaptationforEgocentric3DHandPoseEstimation时间:CVPR2024机构:TheUniversityofTokyoTL;DR多目3Dhandposeestimation数据比较难标注,作者核心思路是先训练单目模型,利用无监督的方法适配到双目场景,好处是a.无需标多目数据;b.可以适应任何......
  • 使用 Hugging Face Transformers 创建文本生成模型
    文本生成是自然语言处理中的一个重要任务,在聊天机器人、自动写作等领域有着广泛的应用。HuggingFaceTransformers是一个流行的Python库,它提供了大量预训练的模型以及API来实现各种自然语言处理任务。本文将详细介绍如何使用HuggingFaceTransformers库来创建一个简......
  • 大模型微调实战演练:使用代码剖析 Transformers Pipelines工作原理
    在自然语言处理(NLP)领域,Transformers模型已经成为了主流技术之一。无论是文本分类、情感分析,还是机器翻译,Transformers都展现了强大的性能。今天,我们来详细解析一下TransformersPipelines的运行原理,帮助大家更好地理解其内部机制。一、基本流程TransformersPipeline......
  • [Paper Reading] Multiple View Geometry Transformers for 3D Human Pose Estimation
    MultipleViewGeometryTransformersfor3DHumanPoseEstimationlink时间:CVPR2024机构:UniversityofToronto&&SoutheastUniversity&&MicrosoftResearchAsiaTL;DR提出一种基于Transformer端到端3DHumanPoseEstimation方法MVGFormer,核心模块是geometry与appea......
  • Paper Reading: AutoLearn - Automated Feature Generation and Selection
    目录研究动机文章贡献本文方法问题定义AutoLearn的设计原理预处理挖掘相关特征特征生成特征选择样例展示实验结果数据集和实验设置对比实验可扩展性分析优点和创新点PaperReading是从个人角度进行的一些总结分享,受到个人关注点的侧重和实力所限,可能有理解不到位的地方。具体的......
  • HuggingFace的transformers 库中的tokenizer介绍
    在自然语言处理中,tokenizer是一个非常关键的组件,它将文本转化为模型可以理解的格式。这个过程通常包括以下几个步骤:1.文本标准化小写化:将所有文本转换为小写,以减少不同形式的单词(如"Apple"和"apple")被视为不同词的情况。去除标点符号:删除或替换标点符号,不过在某些场景下,......
  • [Paper Reading] DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT D
    DEFORMABLEDETR:DEFORMABLETRANSFORMERSFOREND-TO-ENDOBJECTDETECTIONlink时间:2021(ICLR)机构:Sensetime&USTC&CUHKTL;DR参考2DDeformableConv,通过在ReferencePoint附近增加samplepoints,将DETR的收敛速度提升10倍,对于小目标效果也更好。Method背景知识:参考......