[Paper Reading] One-Stage 3D Whole-Body Mesh Recovery with Component Aware Transformer

时间：2024-08-28 14:27:02浏览次数：16

标签：Body Transformer Recovery Component feature query

One-Stage 3D Whole-Body Mesh Recovery with Component Aware Transformer

link
时间：CVPR2023
机构：粤港澳大湾区数字经济研究院(IDEA) && 清华大学深圳国际研究生院

TL;DR

使用一个纯Transformer结构模型(名为OSX)直接预测Body/Hand/Face的参数，避免了之前各模型分开预测后融合复杂的问题。

Method

Component-aware Encoder

将初始化的Body Tokens与Vit抽取的image feature sequence整体作为input sequence，取过多层Transformer Encoder预测sequence，其中body token的成分增加regression head用来预测身体参数，其中image feature的成分\(T_f^′\) 作为全局特征输入给Component-aware Decoder。

Component-aware Decoder

将Global feature \(T_f^′\) reshape回spacial维度，并Deconv出多尺度feature \(T_{hr}\)，利用\(T_f^′\)预测出hand_box与face_box，使用ROI Align在多尺度feature上分别crop出hand与face特征。
Keypoint-guided deformable attention decoder：input query是由[reference keypoint feature, pose positional embedding, and learnable embeddings]三部分累加而成，其中reference keypoints是由\(T_f^′\) 特征预测出来的初始值。
Decoder中的cross attention是一个deformable的版本，让query提取特征图中keypoints附近的特征(我的理解是避免全局范围都要query计算量太大)。

Loss

smplx部分Loss包括身体、手、脸的参数Loss，L_{kpts3D}文中没有详细说从哪里预测的。

Code

https://github.com/IDEA-Research/OSX

Experiment

Ablation

总结与发散

无

资料查询

折叠Title

FromChatGPT(提示词：XXX)

标签：Body,Transformer,Recovery,Component,feature,query
From： https://www.cnblogs.com/fariver/p/18383611

在浏览器上使用transformers.js运行（WebGPU）RMBG-1.4进行抠图（背景移除）
在浏览器上使用transformers.js运行（WebGPU）RMBG-1.4进行抠图（背景移除）说明：首次发表日期：2024-08-28官方Github仓库地址：https://github.com/xenova/transformers.js/tree/main/examples/remove-background-client准备下载onnx模型文件:https://huggingface.co/briaai/RMBG-1.......
Transformer源码详解（Pytorch版本）
Transformer源码详解（Pytorch版本）Pytorch版代码链接如下GitHub-harvardnlp/annotated-transformer:AnannotatedimplementationoftheTransformerpaper.首先来看看attention函数，该函数实现了Transformer中的多头自注意力机制的计算过程。defattention(query,key,v......
Transformer
Transformer八股目录Transformer八股Self-Attention的注意力分数计算公式为什么要进行scaling？为什么是\(\sqrt{d_k}\)？PositionEmbeddingTransformer位置编码的性质Self-Attention的注意力分数计算公式\[score=Softmax(\frac{QK^T}{\sqrt{d_k}})\]为什么要进行scaling？当......
语言图像模型大一统！Meta将Transformer和Diffusion融合，多模态AI王者登场
前言就在刚刚，Meta最新发布的Transfusion，能够训练生成文本和图像的统一模型了！完美融合Transformer和扩散领域之后，语言模型和图像大一统，又近了一步。也就是说，真正的多模态AI模型，可能很快就要来了！欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读......
Transformer作者预警：只卖模型玩不过OpenAI！
前言只卖模型真的不赚钱！欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。本文转载自量子位仅用于学术分享，若侵权请联系删除CV方向的准研究生们，未来三年如何度过？招聘高光谱图像、语义分割、diffusion等方向论文指导老师谷......
LaViT：Less-Attention Vision Transformer的特性与优点
引言https://arxiv.org/pdf/2406.00427随着计算机视觉领域的发展，视觉Transformer（ViTs）逐渐成为一项重要技术。尽管ViTs在捕捉图像中的长距离依赖关系方面表现出色，但其沉重的计算负担和潜在的注意力饱和问题一直是实际应用的障碍。为解决这些问题，微软提出了Less-AttentionV......
最容易理解的Swin transformer模型(通俗易懂版)
SwinTransformer:HierarchicalVisionTransformerusingShiftedWindows1.论文信息原文地址：https://arxiv.org/abs/2103.14030官网地址：https://github.com/microsoft/Swin-Transformer2.网络框架2.1swimVSvit 从图中可以得到，Swin相较于ViT的区别在于：Swim模型......
【HuggingFace Transformers】BertSelfAttention源码解析
BertSelfAttention源码解析1.BertSelfAttention类介绍1.1关键组件1.2主要方法2.BertSelfAttention类源码解析(核心简版)3.BertSelfAttention类源码解析1.BertSelfAttention类介绍BertSelfAttention类是BERT模型的核心组件之一，主要负责实现多头自注意力......
iTransformer时序模型改进——基于SENet和TCN的倒置Transformer，性能暴涨
1数据集介绍ETT(电变压器温度)：由两个小时级数据集（ETTh）和两个15分钟级数据集（ETTm）组成。它们中的每一个都包含2016年7月至2018年7月的七种石油和电力变压器的负载特征。数据集链接：https://drive.google.com/drive/folders/1ZOYpTUa82_jCcxIdTmyr0LXQfvaM9vIy......