MotionLLM: Understanding Human Behaviors from Human Motions and Videos
本研究提出了一种名为MotionLLM的新型框架,旨在通过结合视频和运动序列(如SMPL序列)的多模态数据,利用大型语言模型(LLMs)的能力来理解人类行为。与以往只针对视频或运动数据的LLMs不同,MotionLLM强调了联合建模的必要性,以更准确、全面地捕捉身体动态和语义。研究团队创建了MoVid数据集,并提出了MoVid-Bench基准测试,用于评估模型对视频和运动中人类行为理解的性能。
MotionLLM采用统一的视频-运动训练策略,结合了现有粗糙视频-文本数据和精细运动-文本数据的互补优势,以获得丰富的时空洞察。该框架包括两个阶段:第一阶段,通过可训练的运动/视频转换器(V-L翻译器)将运动和视频数据投影到语言空间,实现模态间的转换;第二阶段,通过指令调整数据对LLM和V-L翻译器进行微调,共享两种模态在LLM的语言空间中的知识,以提高对人类行为的理解、字幕生成和推理能力。
通过大量实验,MotionLLM在字幕生成、时空理解以及推理能力方面表现出色。与Motio
标签:Diffusion,视频,21,模态,理解,MotionLLM,运动,数据 From: https://blog.csdn.net/qq_41895747/article/details/125934718