文章目录
1. 项目简介
**专注于在处理长输入序列时的效率提升以及对噪声2D关节检测的鲁棒性。其核心创新在于利用频域联合序列表示,显著改进了模型的性能。本文已被 CVPR 2023 接收。
- arXiv 链接: [点击查看]
- 项目页面: [
- 介绍视频: 点击查看
新闻动态
- [2024.06.16] 发布了针对 MPI-INF-3DHP 数据集的代码和预训练模型,详情请 点击此处。
- [2024.02.06] 更新了环境要求,并发布了我们在 NeurIPS 2023 的工作 ContextAware-PoseFormer(该方法通过单帧视频输入,超越了基于序列的模型)。
- [2023.06.16] 发布了真实场景视频的代码演示。
- [2023.05.31] 发布了一段带解说的介绍视频,点击 此处 查看。
- [2023.03.28] 构建了项目页面,内含更多描述及视频演示。
- [2023.03.31] 发布了我们的论文在 arXiv 上的版本。
2. 论文简介
PoseFormerV2 以 PoseFormer 为基础,针对实际场景中两个主要限制进行了优化:
- 限制 1:输入关节序列的长度。
- 限制 2:2D关节检测的质量问题。
为解决这些问题,PoseFormerV2 利用频域中的紧凑骨架序列表示,以高效扩展感受野并增强对噪声2D关节检测的鲁棒性。通过在时域和频域中同时融合特征,PoseFormerV2 达到了更优的速度-准确率权衡。
3. 背景及动机
3.1 传统 PoseFormer 的优势
PoseFormer 是第一个成功将变换器引入到 2D-to-3D 人体姿态估计任务的模型。其主要优势在于:
- 利用变换器对每帧中的人体关节空间关系进行建模。
- 捕获帧间的人体动态信息。
3.2 PoseFormer 的局限性
尽管性能出色,PoseFormer 在以下两个方面存在显著不足:
- 输入序列长度的限制:PoseFormer 对所有输入帧应用自注意力机制。当帧数增加时,计算成本急剧上升,从而限制了输入序列的长度。
- 对噪声检测的鲁棒性:PoseFormer 的性能容易受到噪声2D关节检测的影响,而这种噪声在实际应用中不可避免。
4. PoseFormerV2 的核心创新
为了解决上述问题,PoseFormerV2 提出了以下关键方法:
4.1 利用频域紧凑表示
- 将长骨架序列映射到频域。
- 在频域中进行处理以减少计算量,同时保留关键动态信息。
4.2 时间域与频域特征融合
- 在原有 PoseFormer 框架中引入频域特征。
- 通过融合时域和频域特征,实现更高效和稳健的特征表达。
5. 方法细节
5.1 频域表示
PoseFormerV2 使用傅里叶变换将骨架序列从时间域转化为频域。具体过程包括:
- 输入骨架序列:每帧包含一组 2D 关节点。
- 傅里叶变换:提取频域特征,捕获长序列的全局信息。
5.2 时间-频域融合
PoseFormerV2 在以下两个阶段结合时域和频域特征:
- 特征提取阶段:通过频域对全局信息进行高效编码。
- 融合阶段:在变换器层中,结合时域的局部特征和频域的全局特征。
6. 实验结果
6.1 数据集
PoseFormerV2 在以下两个基准数据集上进行了评估:
- Human3.6M:大规模室内人体姿态数据集。
- MPI-INF-3DHP:包含复杂场景和真实世界数据的3D姿态数据集。
6.2 实验对比
在实验中,PoseFormerV2 相比原始 PoseFormer 和其他变换器变体表现出色:
- 速度:PoseFormerV2 的计算成本更低,处理长序列时效率更高。
- 鲁棒性:在噪声2D关节检测的情况下,PoseFormerV2 保持了更好的性能。
6.3 性能指标
- 在 Human3.6M 数据集上,PoseFormerV2 取得了显著更低的误差。
- 在 MPI-INF-3DHP 数据集上,PoseFormerV2 在各种复杂场景下均表现优异。
标签:教程,PoseFormer,项目,PoseFormerV2,频域,2D,特征,序列,3d From: https://blog.csdn.net/QQ_1309399183/article/details/145057527