首页 > 其他分享 >[Paper Reading] Fusing Monocular Images and Sparse IMU Signals for Real-time Human Motion Capture

[Paper Reading] Fusing Monocular Images and Sparse IMU Signals for Real-time Human Motion Capture

时间:2024-11-13 18:56:26浏览次数:1  
标签:Real RNN 信号 Motion IMU Human 视觉 root 坐标系

目录

名称

link
时间:23.09
作者与单位:

主页:
https://github.com/shaohua-pan/RobustCap

TL;DR

融合IMU与视觉信号做动捕是新Topic,IMU能够弥补视觉不足(FOV外、极端遮挡、光照 等)。方法层面使用双分支来处理两套坐标系,即IMU在人体root坐标系下估计body pose,同时会将IMU信号转到Camera坐标系下与视觉信号融合。实验证明这种方法能够打败 纯视觉、纯IMU及其它两者融合的方案。

Method

Local Pose Estimation

RNN-P1

输入6个IMU的rot与acc共12D的源数据,预测root坐标系下的相对joint坐标。

RNN-P2

结合视觉信息,预测camera坐标系下的相对坐标,Loss与上述相同。

\(x_c\)是Camera系下的IMU信息,由\(x_r\)从root系下转换而来。
\(P_{2d}\)是2D图像关节点(MediaPipe得出)变换至归一化平面点。
\(\sigma\)表示每个关节点置信度。

RNN-P3

用来融合两个坐标系下position,得到pose rotation。
step1:将camera系下\(p_c^e\)转到root系下,与\(p_c^e\)进行融合(直接用关节点置信度加权平均),再结合\(x_r\)预测joint rotations,Loss参考下面。

Global Translation Estimation

多模态预测root position及融合

RNN-T1

预测是否踩地,参考TransPose

RNN-T2

预测root点速度,通过积分来获得root position,参考TransPose

RNN-T3

用来通过视觉2D点预测camera坐标系下的root position
最终,根据置信度融合视觉与IMU的root position

Hidden State Feedback Mechanism

主要解决初始动作捕捉的问题(RNN模型中的hidden state对于不同初始姿态使用相同的hidden state),这是不合理的。这里提出的不同模态的hidden state信息交互来缓解这类Badcase。

这篇文章里面的 Hidden State Feedback Mechanism章节主要在用什么方法,解决什么问题? FromChatGPT(这篇文章里面的 Hidden State Feedback Mechanism章节主要在用什么方法,解决什么问题? ) 这篇文章中的“Hidden State Feedback Mechanism”章节主要介绍了一种用于增强双坐标策略中两个分支的方法,解决的问题是在极端输入情况下如何提高运动捕捉的准确性和鲁棒性。具体来说,这个方法通过在两个坐标系统之间交换信息,使得在一种信号(视觉或惯性)不可靠时,另一种信号可以对结果进行校正和补充。

该机制主要包含以下几个关键点:

双坐标策略的局限性:在双坐标策略中,两个分支(一个基于视觉信号,另一个基于惯性测量单元IMU信号)独立运行,没有相互之间的信息交流。这可能导致在某些情况下,如视觉信号不可用或IMU信号漂移时,单独的分支无法提供准确的运动捕捉结果。

隐藏状态的初始化问题:对于基于RNN的模型,如果使用固定的初始隐藏状态,可能会导致在跟踪过程中出现误差,因为人的起始姿势可能不同,错误的初始状态会导致网络无法根据变化的输入信号正确调整其隐藏状态。

隐藏状态反馈机制:为了解决上述问题,文章提出了一种隐藏状态反馈机制。这个机制允许在两个坐标系统之间进行信息交换,使得在某个分支表现良好时,可以帮助另一个分支提高性能。

具体实现:对于RNN-P1(基于根坐标系的局部姿势估计),当视觉信号足够好时,可以使用从RNN-P2(基于相机坐标系的局部姿势估计)获得的关节位置来初始化RNN-P1的隐藏状态。对于RNN-T3(全局位置估计),当视觉信号不可用时,可以使用最终融合的结果来更新其隐藏状态,以减少视觉信号不可用时的漂移。

效果:通过这种机制,当视觉信号恢复时,系统可以立即恢复到合理且与之前输出一致的结果,避免了突然的变化,特别是在目标重新进入相机视野时。

总的来说,隐藏状态反馈机制通过在双坐标策略的两个分支之间动态地交换信息,提高了系统在面对极端情况时的鲁棒性和准确性。

Experiment


效果可视化

总结与发散

  • 高低频率的融合没有重点介绍
  • relative position与rotation与global的分开预测

相关链接

https://github.com/shaohua-pan/RobustCap

标签:Real,RNN,信号,Motion,IMU,Human,视觉,root,坐标系
From: https://www.cnblogs.com/fariver/p/18541715

相关文章

  • 内核参数pci=realloc
    内核参数pci=realloc在Linux系统中,pci=realloc是一个内核启动参数,用于控制PCI设备所需的内存基地址寄存器(BaseAddressRegisters,BARs)的重新分配。这个参数对于解决一些PCI设备在启动时由BIOS分配的内存地址不正确、不兼容或者无法满足特定需求的问题非常有用。PCI设备的BAR......
  • humanlayer
    humanlayerhttps://github.com/humanlayer/humanlayer?tab=readme-ov-fileHumanLayer:ApythontoolkittoenableAIagentstocommunicatewithhumansintool-basedandasynchronousworkflows.Byincorporatinghumans-in-the-loop,agentictoolscanbegiven......
  • 【学习笔记1】人类的神经系统 The nervous system of human
    人类的神经系统Thenervoussystemofhuman 人体神经系统(Thehumannervoussystem):人体组成:呼吸系统、骨骼系统、肌肉系统、消化系统、心血管系统、神经系统。【1】Compositionofthehumanbody:respiratorysystem,skeletalsystem,muscularsystem,digestivesys......
  • VMware ESXi 6.7U3u macOS Unlocker & OEM BIOS 2.7 集成 Realtek 网卡驱动和 NVMe 驱
    VMwareESXi6.7U3umacOSUnlocker&OEMBIOS2.7集成Realtek网卡驱动和NVMe驱动(集成驱动版)此版本解决的问题:VMwareHostClient无法将现有虚拟磁盘(VMDK)附加到虚拟机请访问原文链接:https://sysin.org/blog/vmware-esxi-6-sysin/,查看最新版。原创作品,转载请保留出......
  • 93_api_intro_finance_optionsrealtime
    期权实时行情数据最新价格、交易量、交易额等信息,期权行情实时数据,市场交易数据。1.产品功能实时更新期权市场数据;覆盖主要期权合约;支持多种数据参数,包括价格、交易量、持仓量等;提供详细的市场分析和数据解读;高效、稳定的数据获取体验;秒级查询性能;数据持续更新与维护;......
  • 83_api_intro_stock_hk_stockhkindexrealtime
    港股指数实时行情数据API接口所有港股指数实时交易行情数据,港指实时数据,支持代码筛选。1.产品功能支持所有港股指数实时交易数据查询;包含港股实时交易多项指标数据;毫秒级查询性能;支持传递港股指数代码,筛选某一支港股指数的实时交易数据;全接口支持HTTPS(TLSv1.0/v1.......
  • 48_api_intro_stock_fund_fundopenetfrealtime
    场内交易基金实时数据API数据接口多维数据查询指标,场内基金数据,每日实时数据。1.产品功能支持所有场内交易基金实时数据查询;实时数据,支持一次查询单个或所有基金数据;每个交易日16:00-23:00更新当日的最新场内交易基金净值数据;多数据源清洗整合,百万级数据毫秒级返回;......
  • 40_api_intro_stock_cn_stockcnrealtimeindex
    中国股票指数数据API数据接口中国股票指数实时交易行情数据,股票指数实时数据/支持代码筛选。1.产品功能支持所有中国股票指数实时交易数据查询;单次可同时查询多个指数;包含中国股票实时交易多项指标数据;秒级查询性能;全接口支持HTTPS(TLSv1.0/v1.1/v1.2/v1.3);......
  • HE-Drive:Human-Like End-to-End Driving with Vision Language Models
    文章目录前言一、介绍二、相关工作2.1端到端自动驾驶2.2用于轨迹生成的扩散模型2.3用于轨迹评估的大型语言模型(LLMs)三、方法论3.1稀疏感知3.2基于扩散的运动规划器3.3基于大语言模型的轨迹评分器3.3.1基于规则的轨迹评分策略3.3.2VLMs帮助调整驾驶风格。3.4......
  • HumanEval: 语言模型生成代码的评估方法
    论文地址:EvaluatingLargeLanguageModelsTrainedonCode本文尝试从代码层面分析一下这个数据集是如何衡量从文档生成代码的功能正确性。安装condacreate-nhuman-evalpython=3.7condaactivatehuman-evalgitclonehttps://github.com/openai/human-evalpipinstall......