困境
- 遮挡
- 抖动
- 脚与地面
单目
- AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation,解决了遮挡问题
- PhysPT: Physics-aware Pretrained Transformer for Estimating Human Dynamics:引入物理模型
- HaMeR: 手部捕捉
- TRAM: 超越WHAM,可以实现高难度动作
- WHAC: 首个全身时序人体网格恢复,基于SMPLer-X
从视频中估计3D人体运动的方法已经取得了快速发展,但现有的方法仍存在一些关键局限性。
首先,大多数方法是在摄像机坐标系中估计人体。
其次,以前在全局坐标系中估计人体的工作通常假设地面是平坦的,导致产生脚滑的现象。
第三,最准确的方法依赖于计算成本高昂的优化流程,这限制了它们仅能应用于离线场景。
最后,基于视频的方法的准确性竟然不如单帧方法。我们通过WHAM(世界坐标系下具有准确运动的人体)来解决这些局限性,WHAM能从视频中准确高效地重建3D人体运动。在全局坐标系中。WHAM通过使用动作捕捉数据将2D关键点序列提升到3D,并将此与视频特征结合,整合运动上下文和视觉信息。WHAM利用从SLAM方法中估计的摄像机角速度以及人体运动来估计身体的全球轨迹。我们将此与一种接触感知轨迹细化方法相结合,使WHAM能够在各种条件下捕捉人体运动,如爬楼梯。WHAM在多个野外基准测试中超过了所有现有的3D人体运动恢复方法。
多目
- [XR]
Easymocap: 引入三角测量
生成
- HUMANTOMA: 文字生成动作