人体姿态估计(Human Pose Estimation, HPE)是计算机视觉热门的研究课题之一,它通过对计算机输入包含人体的图像,从而获得人体骨架关键点位置,这让视觉动捕能够做到仅靠摄像头来进行人体动作姿态的捕捉。
一、2D人体姿态估计与3D人体姿态估计
根据输出结果的维度划分,人体姿态估计可以细分为2D人体姿态估计和3D人体姿态估计。
1、2D人体姿态估计
基于深度学习的2D人体姿态估计利用卷积神经网络(CNN)从图像中检测提取人体骨骼关节点,但是缺少深度信息,无法完整地描述人体在三维空间中的姿态,不过其技术积累为3D人体姿态估计的发展打下了基础。
2、3D人体姿态估计
随着算力和硬件设备的进步,基于深度学习的3D人体姿态估计越来越受到关注,相比于2D人体姿态估计,3D人体姿态估计能够检测提取人体的三维姿态信息,包括x、y和z坐标位置,更完整地描述人体在空间中的姿态。3D人体姿态估计的长足发展也促进了视觉动作捕捉的进步。
二、二维图像到3D点的跨越
利用3D人体姿态估计将二维的视频图像转换为计算机可识别的三维信息点,主要有两种思路,一种是由图像直接回归得到3D点坐标,另一种是先提取2D点信息再计算得到3D点坐标:
1、由图像直接回归得到3D点坐标
这种方法虽然简单粗暴,但是人体受具体环境因素影响较大,模型需要学习的特征也太过繁杂,输出的3D坐标结果质量并不理想。
2、先提取2D点信息再计算得到3D点坐标
这种方法基于 2D 坐标预测执行 3D 关节点的重建或者回归,2D人体姿态估计相关研究模型已经较为成熟,相比由图像直接回归得到3D点坐标更为稳妥,并且在实际的视觉动作捕捉应用中还能采取使用深度摄像头的方法直接获取准确的深度信息,减少计算量,提升精准度。
三、训练集
基于深度学习的3D人体姿态估计需要设计深度卷积网络从二维图像特征回归出三维信息,在此过程中要借助训练集辅助模型训练。
其过程大致包含数据的采集和预处理、特征提取、模型的训练优化和评估等。
视觉动作捕捉最终的效果和模型算法的训练程度有很大关联,但是目前主流的3D训练数据集数量还远远不够,大部分时候只能混合使用2D数据集和3D数据集,进行弱监督或者半监督的训练,所以为了让视觉动捕呈现出更好的效果,视觉动捕厂商在模型算法的训练上往往会花费大量的人力物力。
四、技术难点
借助人体姿态估计相关技术成果,视觉动捕可以实现对人物动作的无穿戴实时捕捉,但是在落地应用中仍存在一些需要解决突破的技术难点。
1、稳定性
用户体验视觉动捕有时会遇到数字人模型躯体异常抖动的情况,这是因为仅依靠算法由2D点拟合3D点,受遮挡、强光、服饰穿着等因素影响较大,难免造成误差,因而会更推荐用户使用带深度信息捕捉的摄像头,选择动石科技这样算法训练更成熟的技术厂商。
2、精准度
视觉动捕驱动数字人的动作精准度与算法模型的训练程度有很大关联,但是目前3D训练数据集的数量还远远不够,并且大部分训练集来源于实验室环境,缺少户外极端环境,因此在算法模型的适应训练上还需要加大投入。
五、动捕效果优化策略
基于3D人体姿态估计的视觉动捕技术通过摄像头捕捉画面信息,利用算法由2D点拟合出3D点,在动捕过程中如果遇到效果不佳的情况,可以考虑从以下几个方面进行优化:
1、动捕环境
保持动捕室的整洁明亮。极端光线环境会影响摄像头捕捉画面的质量,不利于算法模型计算。杂物或是宽大衣物对动捕演员肢体的遮挡同样不利于算法标定提取2D关节点。
2、硬件设备
深度摄像头捕捉到的深度信息可以为后续2D点拟合3D点提供支持,提高精准度。条件允许的情况下,使用性能更好的显卡,运用多个摄像头同时进行捕捉对动捕效果的提升也是非常大的。
3、软件
视觉动捕的算法模型是在不断训练进步中的,及时更新软件版本,享受更稳定精准的动捕效果。