CVPR 2023
读论文思考的问题
-
论文试图解决什么问题?写作背景是什么?
问题:
- 如何更好地在任意场景下实现双手的姿态估计和重构?
背景:
-
现有的方法将两只手当做一个整体去提取特征,同时回归出两只手的信息,这种特征对于双手识别来说并不是最优的,同时也带来了限制:输入必须是2只手;当遇到复杂情景(外部遮挡、截断等)时模型的表现不是很好
-
以往的方法通常会引入 hand detector,可能会带来误差累积问题
-
文章提出了什么样的解决方法?
-
提出了 ACR 模型,对于手部姿态采用了 pixel-level representation,消除了对 detector 的需求
-
对于特征图的每个像素,都回归出以下几种图:
-
Parameter Map
-
Hand Center Map
-
Part Segmentation Map
-
Cross-hand Prior Map,
通过以下 3 种方式对预测的 per-pixel MANO parameter 进行 ensemble:
-
parameter map 和 center map 逐元素相乘相加
-
cross-hand prior map 和另一只手的 center map 逐元素相乘相加
-
parameter map 和 segmentation map 逐元素相乘相加(结果为 16 × 109)
-
-
最后通过一个 MLP 再做一次集成
-
提出了 collision-aware center-based representation 的方法来使得中心太靠近的两只手相互远离
-
-
你觉得解决方法的关键之处在哪里?
-
引入了 per-pixel representation,避免了对 hand detector 的依赖
-
通过预测 center-map,使得对一只手的姿态预测可以同时从这只手本身和另一只手来进行
-
通过 part segmentation 的任务,使得对手部姿态的预测在手的内部也进行了解耦合(通过每个关节部分来分别预测手的整体姿态),这样对于手被截断的情景会具备一定的鲁棒性
-
-
这个解决方法的局限性在哪里?有没有更好的解决方法?
-
当两只手离得太远的时候,感觉 cross-hand prior map 没有什么用,预测出来的效果可能不佳
-
当两只手在图片中占据的比例过小或者手的分辨率过低时,part-segmentation 可能不能输出很好的结果
-
-
文章是通过设计什么样的实验来支撑其解决方法的有效性的?这些实验你觉得有效吗?
实验:
-
在 InterHand2.6M 和 FeiHand 数据集上和其他方法的对比
-
消融实验
-
HRNet 和 ResNet-50 的对比
-
各个模块的作用:cross-hand-attention prior;part-based representation
-
-