CVPR 2022 (Oral)
读论文思考的问题
-
论文试图解决什么问题?写作背景是什么?
问题:
- 如何将图卷积神经网络(GCN)结构应用到双手交互识别上,且能很好地解决双手的遮挡、相似和交互的问题?
背景:
-
双手识别的挑战:1. 严重的相互遮挡,双手形状类似。2. 难以有效地建模交互的上下文信息
-
稀疏的局部图像特征(heatmap 等)对于解决遮挡问题可能不是很有用,且难以建模 dense interaction context
-
现有的 GCN 结构在双手识别上应用得不是很好
-
文章提出了什么样的解决方法?
-
提出了基于 GCN 的 IntagHand 模型,使用一种 corase-to-fine 的方式直接回归、修正出每个顶点的坐标
-
提出了 2 个基于 attention 的模块,对双手的问题进行建模
-
PIFA:对 vertex feature 和 patched image feature 做 alignment,为每个节点提供图片的全局信息
-
CHA:对双手的 vertex feature 做 cross-attention,缓解双手的相互遮挡问题
-
-
通过辅助任务(手部分割、节点预测等),提取出对手部信息和双手上下文敏感的图像特征
-
-
你觉得解决方法的关键之处在哪里?
- 网络的节点特征有和全局的图像特征做交互,且网络对双手的节点特征做了显式的交互建模,这些都对缓解双手的交互、遮挡问题起到了不小的作用
-
这个解决方法的局限性在哪里?有没有更好的解决方法?
-
只用了 GCN,完全没有用 MANO,这可能会导致网络预测的结果不稳定(from MeMaHand)
-
生成的双手 mesh 可能存在交互问题(穿模)
-
双手交互针对的是所有的节点特征,这样会不会带来一些冗余的计算?(比如一些离得特别远的节点就没有必要计算)
-
-
文章是通过设计什么样的实验来支撑其解决方法的有效性的?这些实验你觉得有效吗?
实验:
-
在 InterHand2.6M 上和其他方法的对比(MPJPE, MPVPE, PCK curve)
-
消融实验
-
有无 CHA
-
有无 PIFA
-
PIFA 是否运用不同分辨率的特征
-
-
要点
- PIFA 中,每一个 block 用到的 patched image feature 的分辨率是不一样的(8×8,16×16,32×32)