首页 > 其他分享 >每日AIGC最新进展(21):清华大学提出从人体运动和视频中理解人类行为MotionLLM、武汉大学提出连贯的声音和全身动作RapVerse、浙江大学Streaming Video Diffusion

每日AIGC最新进展(21):清华大学提出从人体运动和视频中理解人类行为MotionLLM、武汉大学提出连贯的声音和全身动作RapVerse、浙江大学Streaming Video Diffusion

时间:2024-06-07 10:58:54浏览次数:29  
标签:Diffusion 视频 21 模态 理解 MotionLLM 运动 数据

Diffusion Models专栏文章汇总:入门与实战

MotionLLM: Understanding Human Behaviors from Human Motions and Videos

本研究提出了一种名为MotionLLM的新型框架,旨在通过结合视频和运动序列(如SMPL序列)的多模态数据,利用大型语言模型(LLMs)的能力来理解人类行为。与以往只针对视频或运动数据的LLMs不同,MotionLLM强调了联合建模的必要性,以更准确、全面地捕捉身体动态和语义。研究团队创建了MoVid数据集,并提出了MoVid-Bench基准测试,用于评估模型对视频和运动中人类行为理解的性能。

MotionLLM采用统一的视频-运动训练策略,结合了现有粗糙视频-文本数据和精细运动-文本数据的互补优势,以获得丰富的时空洞察。该框架包括两个阶段:第一阶段,通过可训练的运动/视频转换器(V-L翻译器)将运动和视频数据投影到语言空间,实现模态间的转换;第二阶段,通过指令调整数据对LLM和V-L翻译器进行微调,共享两种模态在LLM的语言空间中的知识,以提高对人类行为的理解、字幕生成和推理能力。

通过大量实验,MotionLLM在字幕生成、时空理解以及推理能力方面表现出色。与Motio

标签:Diffusion,视频,21,模态,理解,MotionLLM,运动,数据
From: https://blog.csdn.net/qq_41895747/article/details/125934718

相关文章

  • CSP历年复赛题-P2119 [NOIP2016 普及组] 魔法阵
    原题链接:https://www.luogu.com.cn/problem/P2119题意解读:在一组数里找出所有的Xa,Xb,Xc,Xd的组合,使得满足Xa<Xb<Xc<Xd,Xb-Xa=2(Xd-Xc),Xb-Xa<(Xc-Xb)/3,并统计出每个数作为A,B,C,D出现的次数。解题思路:1、枚举(O(n^4))首先想到的是通过4重循环枚举所有可能的Xa,Xb,Xc,Xd,然后判......
  • 免费实用!16款 Stable Diffusion 插件全面测评
    一、前方高能1.prompt-all-in-one提示词翻译补全(自动翻译)推荐指数:☆☆☆☆☆易上手程度:☆☆☆☆☆使用频率:☆☆☆☆☆能做什么:prompt-all-in-one提示词翻译补全可以帮助英文不好的用户,快速弥补英文短板。其中包含,中文输入自动转英文、自动保存使用描述词、描述词历史......
  • 一加七Pro刷Lineageos21(kernelsu+MicroG)
    前言前几天我已经刷了Lineageos21(一加七Pro刷lineageos21(kernelsu+gapps)),但是体验下来有两个很严重的bug:无法接打电话,没有声音。收短信倒是很正常,但电话打进来只会显示号码,不会显示接听界面(对方那边显示正在通话中,也就是挂断了),拨打电话会显示已结束。测试发现是刷了kernel......
  • 5.21
    地铁查询系统项目1.引言地铁查询系统旨在提供用户方便快捷的地铁线路查询服务,帮助用户准确地规划出行路线,节省时间和精力。2.功能需求2.1路线查询-用户可以输入起点站和终点站,系统将返回最佳的地铁路线,并显示换乘信息和预计耗时。-系统支持最短路线和最少换乘两种查询模......
  • 算法学习笔记(21):数论分块
    数论分块大部分内容来源于OI-WIKI引理1:\(\\foralla,b,c\in\mathbb{Z},\left\lfloor\frac{a}{bc}\right\rfloor=\left\lfloor\frac{\left\lfloor\frac{a}{b}\right\rfloor}{c}\right\rfloor\)引理2:\(\lfloor\frac{n}{i}\rfloor\)的取值有\(O(\sqrtn)\......
  • 原来Stable Diffusion是这样工作的
    stablediffusion是一种潜在扩散模型,可以从文本生成人工智能图像。为什么叫做潜在扩散模型呢?这是因为与在高维图像空间中操作不同,它首先将图像压缩到潜在空间中,然后再进行操作。在这篇文章中,我们将深入了解它到底是如何工作的,还能够知道文生图的工作方式与图生图的的工作方式有......
  • 锐捷校园网自助服务系统 login_judge.jsf 任意文件读取漏洞复现(XVE-2024-2116)
    0x01产品简介锐捷校园网自助服务系统是锐捷网络推出的一款面向学校和校园网络管理的解决方案。该系统旨在提供便捷的网络自助服务,使学生、教职员工和网络管理员能够更好地管理和利用校园网络资源。0x02漏洞概述校园网自助服务系统/selfservice/selfservice/module/scgroup......
  • I Doc View 在线文档预览 qJvqhFt.json 任意文件读取漏洞复现(XVE-2024-2115)
    0x01产品简介iDocView是一个在线文档解析应用,旨在提供便捷的文件查看和编辑服务。0x02漏洞概述iDocView是一个在线文档预览系统/view/qJvqhFt.json接口处存在任意文件读取漏洞,未授权的攻击者可以利用此接口并携带默认token读取服务器敏感文件信息,使系统处于极度不安全的......
  • SD321BF 低功耗单运算放大器芯片IC
    一般说明    SD321为低功耗系统带来性能和经济性。具有高单位增益频率和保证0.4V/在此情况下,静态电流仅为430μa/aef(5V)。输入通用模式范围包括地面,因此该设备能够在单电源应用和双电源应用中工作。它还能够舒适地驱动大容量负载。    SD321可在SOT23-5封装......
  • Stable diffusion prompts 使用语法、参数讲解、插件安装教程
    Stablediffusionprompts使用语法、参数讲解、插件安装教程本文基于StablediffusionWebUI进行讲解(安装在AutoDL上,安装在本地电脑上的也同样适用本教程)。初始界面:文件目录结构:上图红框中的4个文件夹是我们常用到的,embeddings放置训练的embedding模型,它可......