基础理论篇-视觉动作捕捉与人体姿态估计(HPE)

时间：2024-01-03 10:34:20浏览次数：39

标签：动捕 2D 估计捕捉 HPE 基础理论 3D 姿态人体

人体姿态估计（Human Pose Estimation, HPE）是计算机视觉热门的研究课题之一，它通过对计算机输入包含人体的图像，从而获得人体骨架关键点位置，这让视觉动捕能够做到仅靠摄像头来进行人体动作姿态的捕捉。

一、2D人体姿态估计与3D人体姿态估计

根据输出结果的维度划分，人体姿态估计可以细分为2D人体姿态估计和3D人体姿态估计。

1、2D人体姿态估计

基于深度学习的2D人体姿态估计利用卷积神经网络（CNN）从图像中检测提取人体骨骼关节点，但是缺少深度信息，无法完整地描述人体在三维空间中的姿态，不过其技术积累为3D人体姿态估计的发展打下了基础。

2、3D人体姿态估计

随着算力和硬件设备的进步，基于深度学习的3D人体姿态估计越来越受到关注，相比于2D人体姿态估计，3D人体姿态估计能够检测提取人体的三维姿态信息，包括x、y和z坐标位置，更完整地描述人体在空间中的姿态。3D人体姿态估计的长足发展也促进了视觉动作捕捉的进步。

基础理论篇-视觉动作捕捉与人体姿态估计(HPE)_人工智能

二、二维图像到3D点的跨越

利用3D人体姿态估计将二维的视频图像转换为计算机可识别的三维信息点，主要有两种思路，一种是由图像直接回归得到3D点坐标，另一种是先提取2D点信息再计算得到3D点坐标：

1、由图像直接回归得到3D点坐标

这种方法虽然简单粗暴，但是人体受具体环境因素影响较大，模型需要学习的特征也太过繁杂，输出的3D坐标结果质量并不理想。

2、先提取2D点信息再计算得到3D点坐标

这种方法基于 2D 坐标预测执行 3D 关节点的重建或者回归，2D人体姿态估计相关研究模型已经较为成熟，相比由图像直接回归得到3D点坐标更为稳妥，并且在实际的视觉动作捕捉应用中还能采取使用深度摄像头的方法直接获取准确的深度信息，减少计算量，提升精准度。

三、训练集

基于深度学习的3D人体姿态估计需要设计深度卷积网络从二维图像特征回归出三维信息，在此过程中要借助训练集辅助模型训练。

其过程大致包含数据的采集和预处理、特征提取、模型的训练优化和评估等。

视觉动作捕捉最终的效果和模型算法的训练程度有很大关联，但是目前主流的3D训练数据集数量还远远不够，大部分时候只能混合使用2D数据集和3D数据集，进行弱监督或者半监督的训练，所以为了让视觉动捕呈现出更好的效果，视觉动捕厂商在模型算法的训练上往往会花费大量的人力物力。

四、技术难点

借助人体姿态估计相关技术成果，视觉动捕可以实现对人物动作的无穿戴实时捕捉，但是在落地应用中仍存在一些需要解决突破的技术难点。

1、稳定性

用户体验视觉动捕有时会遇到数字人模型躯体异常抖动的情况，这是因为仅依靠算法由2D点拟合3D点，受遮挡、强光、服饰穿着等因素影响较大，难免造成误差，因而会更推荐用户使用带深度信息捕捉的摄像头，选择动石科技这样算法训练更成熟的技术厂商。

2、精准度

视觉动捕驱动数字人的动作精准度与算法模型的训练程度有很大关联，但是目前3D训练数据集的数量还远远不够，并且大部分训练集来源于实验室环境，缺少户外极端环境，因此在算法模型的适应训练上还需要加大投入。

五、动捕效果优化策略

基于3D人体姿态估计的视觉动捕技术通过摄像头捕捉画面信息，利用算法由2D点拟合出3D点，在动捕过程中如果遇到效果不佳的情况，可以考虑从以下几个方面进行优化：

1、动捕环境

保持动捕室的整洁明亮。极端光线环境会影响摄像头捕捉画面的质量，不利于算法模型计算。杂物或是宽大衣物对动捕演员肢体的遮挡同样不利于算法标定提取2D关节点。

2、硬件设备

深度摄像头捕捉到的深度信息可以为后续2D点拟合3D点提供支持，提高精准度。条件允许的情况下，使用性能更好的显卡，运用多个摄像头同时进行捕捉对动捕效果的提升也是非常大的。

3、软件

视觉动捕的算法模型是在不断训练进步中的，及时更新软件版本，享受更稳定精准的动捕效果。

标签：动捕,2D,估计,捕捉,HPE,基础理论,3D,姿态,人体
From： https://blog.51cto.com/u_16469608/9079002

Salesforce LWC学习(四十七) 标准页面更新以后自定义页面如何捕捉？
本篇参考： https://developer.salesforce.com/docs/atlas.en-us.platform_events.meta/platform_events/platform_events_subscribe_lc.htmhttps://developer.salesforce.com/docs/component-library/bundle/lightning-emp-api/documentationsalesforce零基础学习（九十六）Platfor......
vscode+xdebug+phpenv本地调试php代码
php环境变量先设置环境变量，找到php目录在vscode里安装phpdebug插件点击插件按钮，搜索phpdebug，找到这里标有Xdebug的，点击安装开启Xdebug组件找到对应版本的php去配置php.in文件把这个放到php.ini的最后,如果里面有则根据情况替换即可,端口号要和下面的vscode里面的统一......
关于`.Net Core`捕捉`C/C++`中的异常
结论开门见山的说，.NetCore无法捕捉在C/C++编写的Dll中的方法的异常和错误。说明在.NetFramework框架期间，可以通过为方法增加特性：HandleProcessCorruptedStateExceptionsAttribute，或者使用RuntimeWrapperException捕捉运行时的错误，但是在.NetCore框架中，上述特性已经不再生......
机器学习的里程碑：从基础理论到大语言模型的进步
在人工智能的迅猛发展中，大语言模型和传统机器学习是不同发展阶段下的产物。大语言模型，如广为人知的GPT系列和BERT，主要依赖于复杂的神经网络结构，它们能够处理和生成人类语言，为自然语言处理带来了革命性的变化。这些模型的发展标志着从简单的任务特定模型向更通用、更灵活的解决......
Shell信号发送与捕捉
信号（Signal）：信号是在软件层次上对中断机制的一种模拟，通过给一个进程发送信号，执行相应的处理函数。linux通过信号来在运行在系统上的进程之间通信，也可以通过信号来控制shell脚本的运行进程可以通过三种方式来响应一个信号：1）忽略信号，即对信号不做任何处理，其中有两个信号不能忽略：S......
利用 ALV 实现增删改查系列之四：如何捕捉 SAP ABAP ALV 报表行项目删除时抛出的事件试
这个教程ALV系列的前三篇文章如下：69.利用ALV实现增删改查系列之一：让ALV报表进入可编辑状态70.利用ALV实现增删改查系列之二：仅让ALV报表某一列允许被编辑72.利用ALV实现增删改查系列之三：如何给SAPABAPALV报表的修改功能添加自定义校验逻辑笔者的知......
从0到1，全面学透区块链：掌握区块链的基础理论和技术
从0到1，全面学透区块链：掌握区块链的基础理论和技术1、简介区块链是一个又一个区块组成的链条。每一个区块中保存了一定的信息，它们按照各自产生的时间顺序连接成链条。这个链条被保存在所有的服务器中，只要整个系统中有一台服务器可以工作，整条区块链就是安全的。这些服务器在......
laravel:捕捉异常记录到日志(10.27.0)
一，相关文档:https://learnku.com/docs/laravel/10.x/errors/14857#9e8f93二，php代码:1，代码:12345678910111213141516171819202122232425262728classNewsControllerextendsController{ //启用事务 publicfuncti......
异常捕捉
publicclassCatchWho{publicstaticvoidmain(String[]args){try{try{thrownewArrayIndexOutOfBoundsException();}catch(ArrayIndexOutOfBoundsExceptione){System.out.pri......
信息学奥赛基础理论知识
⦁ 信息学奥赛简介：NOIP：全国青少年信息学奥林匹克联赛是教育部认可的五大学科（数学，物理，化学，生物，信息学）竞赛之一，由1984中国计算机学会（CCF）创办，联赛分为普及组和提高组。复赛可以使用c，c++，Pascal语言，2022年后只能使用c++。CSP-J/S：2019年CCF推出CSP（软件能力认证），CSP-J/S（非专业级别认证），CS......