首页 > 其他分享 >[大语言模型-论文精读] MoRAG - 基于多部分融合的检索增强型人体动作生成

[大语言模型-论文精读] MoRAG - 基于多部分融合的检索增强型人体动作生成

时间:2024-09-26 21:20:46浏览次数:11  
标签:检索 精读 动作 增强型 模型 生成 文本 MoRAG

MoRAG--Multi-Fusion Retrieval Augmented Generation for Human Motion

KS Shashank, S Maheshwari, RK Sarvadevabhatla - arXiv preprint arXiv:2409.12140, 2024

MoRAG - 基于多部分融合的检索增强型人体动作生成

1.

目录

MoRAG--Multi-Fusion Retrieval Augmented Generation for Human Motion

1. 摘要

创新点

算法模型

实验效果

结论

推荐阅读指数:★★★★☆


摘要

本文介绍了一种新颖的基于多部分融合的检索增强型文本驱动人体动作生成策略,名为MoRAG。该方法通过改进的运动检索流程来增强运动扩散模型,利用额外的知识来提升生成和检索任务的质量。通过有效提示大型语言模型(LLMs),解决了运动检索中的拼写错误和改写问题。本方法采用多部分检索策略,提高了运动检索在语言空间的泛化能力。通过空间组合检索到的动作,创建了多样化的样本。此外,通过使用低层次的、特定部分的运动信息,我们可以为未见过的文本描述构建运动样本。实验表明,我们的框架可以作为插件模块,提高运动扩散模型的性能。

论文研究背景

技术背景: 文本驱动的人体动作生成是计算机视觉和自然语言处理交叉领域的一个研究热点。近年来,随着深度学习技术的发展,尤其是大型语言模型和生成模型的突破,该领域取得了显著的进展。

发展历史: 早期的工作主要集中在使用编码器-解码器架构来生成动作序列。后来,随着变分自编码器和生成对抗网络的发展,研究者们开始探索使用这些模型来生成更精细、更真实的动作序列。最近,基于扩散模型的方法因其能够生成高质量、高分辨率的动作序列而受到关注。

技术挑战

  • 如何处理复杂的文本描述,尤其是那些训练数据中未出现过的描述。
  • 如何提高生成动作的多样性和真实感。
  • 如何有效地检索和利用与文本描述相关的运动信息。

创新点

  1. 提出了一种新的多部分融合的检索增强型动作生成框架(MoRAG),通过整合特定部分的运动检索模型与大型语言模型来提高生成任务的性能。
  2. 使用多部分检索策略来提高运动检索在语言空间的泛化能力。
  3. 通过空间组合检索到的动作来创建多样化的样本。
  4. 利用低层次的、特定部分的运动信息,为未见过的文本描述构建运动样本

算法模型

  • MoRAG框架:通过整合特定部分的运动检索模型与大型语言模型,来提升文本描述驱动的动作生成质量。
  • 部分特定描述生成:使用LLM生成针对特定身体部分(如躯干、手、腿)的动作描述。
  • 多部分运动检索:独立训练针对不同身体部分的运动检索模型,以检索与文本描述相对应的动作序列。
  • 空间动作组合:将检索到的部分动作序列组合成全身动作序列,以用于动作生成模型的附加条件。

实验效果

  • 定性分析:MoRAG在处理复杂或未见过的文本描述时,展现出更好的泛化能力。
  • 定量分析:与现有的扩散模型相比,在多样性、多模态距离和多模态性能方面取得了更好的结果。
  • 重要数据
    • 精确度:在top-1、top-2和top-3的召回率上,MoRAG均优于其他方法。
    • FID:在生成动作的Fréchet Inception Distance(FID)上,MoRAG达到了更低的值,表明生成的动作与真实动作更接近。
    • 多样性:MoRAG在生成动作的多样性上优于现有技术。

结论

MoRAG通过使用多部分融合策略,显著提高了文本到人体动作生成的性能。该方法不仅能够处理典型的输入条件,还能有效处理复杂或未见过的输入,提高了模型的泛化能力。

推荐阅读指数:★★★★☆

推荐理由
- 本文提出了一种创新的人体动作生成方法,通过结合检索增强型生成策略,提高了模型对文本描述的理解和生成动作的准确性。
- 实验结果表明,MoRAG在处理复杂文本描述和提升动作生成多样性方面具有显著优势。

代码: Motion-RAG/MoRAG: A framework for text-based retrieval augmented motion generation (github.com) ------------------------------------------
如果您对我的博客内容感兴趣,欢迎三连击( 点赞,关注和评论 ),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更及时地了解前沿技术的发展现状。

标签:检索,精读,动作,增强型,模型,生成,文本,MoRAG
From: https://blog.csdn.net/fyf2007/article/details/142502759

相关文章

  • [大语言模型-论文精读] 以《黑神话:悟空》为研究案例探讨VLMs能否玩动作角色扮演游戏?
    1.论文简介论文《CanVLMsPlayActionRole-PlayingGames?TakeBlackMythWukongasaStudyCase》是阿里巴巴集团的PengChen、PiBu、JunSong和YuanGao,在2024.09.19提交到arXiv上的研究论文。论文:https://arxiv.org/abs/2409.12889代码和数据:https://varp-......
  • ACL会议2024-MPLMM精读
    论文地址:MultimodalPromptLearningwithMissingModalitiesforSentimentAnalysisandEmotionRecognition-ACLAnthology代码地址:GitHub-zrguo/MPLMM:[ACL2024Main]OfficialPyTorchimplementationofthepaper"MultimodalPromptLearningwithMissingMo......
  • 精读《C Primer Plus》——作用域(scope)
    作用域(scope)参考:CPrimerPlus第6版第12章存储类别、链接和内存管理1.分类2.blockscope/块作用域2.1.定义block/块是用一块花括号括起来的代码区域块作用域变量的范围是从定义处到包含该定义块的末尾声明在内层块中的变量,其作用域仅局限于该声明所在的块......
  • [NLP/AIGC/GPT] RAG : 检索增强型生成技术,智能体的外挂知识库
    1概述:RAGRAG技术的概念、起源大家每天都会看到各种RAG框架、论文和开源项目,也都知道RAG(Retrieval-AugmentedGeneration)是检索增强型生成。但大家还记得RAG这个概念源自哪里吗?RAG概念来自FacebookAIResearch在2020年的一篇论文:《**Retrieval-Augmented......
  • MemoRAG:迈向下一代基于记忆的知识发现
    在当今信息化快速发展的时代,如何有效地从庞大的数据中提取有用的信息,已经成为一个亟待解决的挑战。传统的检索增强生成(RAG)系统在处理复杂查询时往往面临诸多限制。为了解决这些问题,研究者们提出了MemoRAG,一个基于长期记忆的创新框架。本文将深入探讨MemoRAG的架构、功能及......
  • 论文精读-U-KAN Makes Strong Backbone for Medical Image Segmentation and Generati
    论文链接:https://arxiv.org/abs/2406.02918 论文代码:https://yes-u-kan.github.io/一、参考文献[1]LiC,LiuX,LiW,etal.U-KANMakesStrongBackboneforMedicalImageSegmentationandGeneration[J].arXivpreprintarXiv:2406.02918,2024.[2]LiuZ,Wan......
  • 论文精读
    如何读一篇论文第一步阅读title、abstract和figures。通过阅读title、abstract、figures和实验部分,可以对论文有一个大致的理解。大部分深度学习论文,都会总结出一两张图片让你理解起来更方便,而不需要通过阅读整篇论文。第二步阅读introduction,conclusions,figures和浏览......
  • 【公式推导】Elucidating the Design Space of Diffusion-Based Generative Models 【
    ElucidatingtheDesignSpaceofDiffusion-BasedGenerativeModels论文精读关注B站可以观看更多实战教学视频:hallo128的个人空间【更新中】EDM论文精读论文链接(1)论文:ElucidatingtheDesignSpaceofDiffusion-BasedGenerativeModels(2)引用:KarrasT,Aittala......
  • [nRF24L01+] 4. 增强型ShockBurst
    4.增强型ShockBurst增强型的ShockBurst是一个数据链路层,具有自动数据包组装和数据包的发送、定时、自动确认和重传。这些特性能够显著提高双向和单向系统的能效,而不会增加主机控制器侧的复杂性。增强型ShockBurst™数据包事务是一种数据包交换,其中一个收发器充当主收发器(PRX,P......
  • 精读代码,实战进阶&实践Task2
    背景从零入门AI生图原理&实践是Datawhale2024年AI夏令营第四期的学习活动(“AIGC”方向),基于魔搭社区“可图Kolors-LoRA风格故事挑战赛”开展的实践学习——适合想入门并实践AIGC文生图、工作流搭建、LoRA微调的学习者参与学习内容提要:从文生图实现方案逐渐进阶,教程......