ICCV 2021
读论文思考的问题
-
论文试图解决什么问题?写作背景是什么?
问题:
- 如何针对性解决双手手势识别里出现的重度遮挡以及深度交互的问题?
背景:
- 由于严重的遮挡和交互特点,先前针对单手手势识别设计的模型不能很好地应用到双手的情景中
-
文章提出了什么样的解决方法?
-
提出了一个深度学习模型,通过编码器和解码器预测和改进(refine) MANO 模型的参数
-
编码器包含一个 hand pose-aware 的注意力模块,根据每只手的关节的 heatmap 提取出对应的手部特征,降低了两手交互和遮挡带来的干扰和误导
-
解码器利用双手的上下文信息来对回归的 MANO 参数进行更新,在每一次更新中,每只手的参数预测网络包括:该手的 pose-aware 的特征、上一阶段预测的双手(左手和右手)的 MANO 参数
-
-
你觉得解决方法的关键之处在哪里?
-
特征提取时运用了 heatmap 的形式,相当于用 mask 将双手的区域分开了,缓解了交互产生的错乱
-
在进行 MANO param refinement 时,每次的输出不仅有单手的特征,还有上一步预测时另一只手的特征,对双手的交互关系进行了建模
-
-
这个解决方法的局限性在哪里?有没有更好的解决方法?
-
迭代更新中的 context 信息感觉太过于隐式了,将前一阶段预测的 MANO 参数加进来这种方式感觉作用有限(MPJPE 从13.170 到 13.071),作者这里用了一些定性的结果来说明
-
对于每只手的特征提取,只提取了手的对应区域,但被遮挡的区域应该也能提供一些信息的(HandOccNet)
-
-
文章是通过设计什么样的实验来支撑其解决方法的有效性的?这些实验你觉得有效吗?
实验:
-
在 InterHand2.6M 和 Haggling 数据集上和其他方法的对比
-
消融实验
-
pose-aware feature
-
context-aware refinement
-
network architecture
-
-
要点
- 在解码器进行迭代更新时,每次利用的特征图是不同的,每一轮利用的特征图级别从高到低