CVPR 2023
读论文思考的问题
-
论文试图解决什么问题?写作背景是什么?
问题:
- 如何在双手识别中集成 paramatic (MANO) 和 non-paramatic hand (GCN) representation 方法的优点?
背景:
-
基于手部模型 MANO 的方法能够产生合理且稳定的手型,但手部的网格不够细粒度和灵活
-
基于 GCN 和 Transformer 的方法能够产生细粒度的手部网格,但它们在遇到严重的遮挡问题和挑战性的视角时的鲁棒性不够好
-
文章提出了什么样的解决方法?
-
提出了 MeMaHand 模型,能够同时估计 MANO 参数以及网格顶点的坐标
-
网络运用了 MMIB 模块,首先用 GCN 来建模顶点特征的局部关系,随后利用 2 层 Transformer,分别对 intra-hand 和 inter-hand 的 MANO 和顶点的特征进行了注意力建模(图像特征也参与其中)
-
设计了 Mesh Alignment Refinement Module,利用 MMIB 模块对预测的 MANO 参数和顶点坐标进行进一步修正
-
-
你觉得解决方法的关键之处在哪里?
-
同时预测了两种手部姿势的“模态”,通过 cross-attention 的方式在模态之间进行了交互,使得两种表示方式达到了互补
-
对 intra-hand 以及 inter-hand 的特征进行了全面的 attention 建模,缓解了双手严重遮挡和交互的问题
-
像 IntagHand (Li et al.) 一样,在手部特征和图像特征之间也做了alignment,使得对手部的建模能够不断从图片全局中获取信息
-
-
这个解决方法的局限性在哪里?有没有更好的解决方法?
-
感觉 Mesh Alignment Refinement 作用不明显,性能提升不大
-
在一些严重的遮挡的情形下模型的效果还不是很好
-
-
文章是通过设计什么样的实验来支撑其解决方法的有效性的?这些实验你觉得有效吗?
实验:
-
在 InterHand2.6M 上和其他方法的对比
-
在一些 in-the-wild 的图片上的拓展
-
消融实验
-
有无 MANO token
-
Mesh Alignment Refinement
-
MMIB 模块:是否用 MMIB 来更新 MANO token;是否使用 Mano-to-Mesh attention
-
模型是否在辅助任务上训练(分割、2d 预测……)
-
-