首页 > 其他分享 >多模态大模型论文总结

多模态大模型论文总结

时间:2024-03-20 11:31:03浏览次数:37  
标签:模态 XL 模型 论文 Gflops FID DiT

A survey of resource-efficient llm and multimodal foundation models

大型基础模型,包括大型语言模型(LLM)、视觉变压器(ViT)、扩散和基于LLM的多模态模型,正在彻底改变从培训到部署的整个机器学习生命周期。然而,这些模型在多功能性和性能方面的实质性进步在硬件资源方面付出了巨大成本。为了以可扩展和环境可持续的方式支持这些大型模型的增长,人们非常重视制定资源节约型战略。

这项调查深入探讨了此类研究的关键重要性,考察了算法和系统方面。它提供了从现有文献中收集到的全面分析和有价值的见解,涵盖了从尖端模型架构和培训/服务算法到实用系统设计和实现的广泛主题。这项调查的目标是对当前方法如何应对大型基础模型带来的资源挑战进行总体了解,并有可能激发该领域的未来突破。

Mulan: Multimodal-llm agent for progressive multi-object diffusion

现有的文本到图像模型仍然很难生成多个对象的图像,特别是在处理其空间位置、相对大小、重叠和属性绑定时。在本文中,我们开发了一种无需培训的多模式LLM代理(MuLan),通过具有规划和反馈控制的渐进式多对象生成来应对这些挑战,就像人类画家一样。MuLan利用大型语言模型(LLM)将提示分解为一系列子任务,每个子任务仅生成一个对象,条件是之前通过稳定扩散生成的对象。与现有的LLM基础方法不同,MuLan只在开始时生成高级计划,而每个对象的确切大小和位置由LLM和每个子任务的注意力指导决定。此外,MuLan采用视觉语言模型(VLM)为每个子任务中生成的图像提供反馈,并控制扩散模型,以便在违反原始提示符时重新生成图像。因此,MuLan每个步骤中的每个模型只需要解决它专门针对的简单子任务。我们收集了200个提示,其中包含来自不同基准的具有空间关系和属性绑定的多对象,以评估MuLan。结果表明,MuLan在生成多个对象方面优于基线。该代码可在此https URL上找到。

Large Multimodal Agents: A Survey

Large language models (LLMs) have achieved superior performance in powering text-based AI agents, endowing them with decision-making and reasoning abilities akin to humans. Concurrently, there is an emerging research trend focused on extending these LLM-powered AI agents into the multimodal domain. This extension enables AI agents to interpret and respond to diverse multimodal user queries, thereby handling more intricate and nuanced tasks. In this paper, we conduct a systematic review of LLM-driven multimodal agents, which we refer to as large multimodal agents ( LMAs for short). First, we introduce the essential components involved in developing LMAs and categorize the current body of research into four distinct types. Subsequently, we review the collaborative frameworks integrating multiple LMAs , enhancing collective efficacy. One of the critical challenges in this field is the diverse evaluation methods used across existing studies, hindering effective comparison among different LMAs . Therefore, we compile these evaluation methodologies and establish a comprehensive framework to bridge the gaps. This framework aims to standardize evaluations, facilitating more meaningful comparisons. Concluding our review, we highlight the extensive applications of LMAs and propose possible future research directions. Our discussion aims to provide valuable insights and guidelines for future research in this rapidly evolving field. An up-to-date resource list is available at this https URL.

AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

我们引入了AnyGPT,这是一个任何对任何多模态语言模型,它利用离散表示来统一处理各种模式,包括语音、文本、图像和音乐。任何GPT都可以稳定地训练,而无需对当前的大型语言模型(LLM)架构或训练范式进行任何更改。相反,它完全依赖于数据级预处理,促进将新模式无缝集成到LLM中,类似于纳入新语言。我们为多模式对齐预培训构建了一个以文本为中心的多模式数据集。利用生成模型,我们合成了第一个大规模的任意到任意多模态指令数据集。它由108k个多转弯对话样本组成,这些样本错综复杂地交织了各种模式,从而使模型能够处理多模式输入和输出的任意组合。实验结果表明,AnyGPT能够促进任何对任何多模态对话,同时实现与所有模式的专业模型相当的性能,证明离散表示可以有效和方便地统一语言模型中的多种模式。演示显示在此https URL

Scalable diffusion models with transformers

We explore a new class of diffusion models based on the transformer architecture. We train latent diffusion models of images, replacing the commonly-used U-Net backbone with a transformer that operates on latent patches. 

我们探索了一类新的基于变压器架构的扩散模型。我们训练图像的潜在扩散模型,将常用的U-Net主干替换为对潜在补丁进行操作的转换器。

We analyze the scalability of our Diffusion Transformers (DiTs) through the lens of forward pass complexity as measured by Gflops. We find that DiTs with higher Gflops—through increased transformer depth/width or increased number of input tokens—consistently have lower FID. 

我们通过Gflops测量的前向通过复杂性来分析我们的扩散变压器(DiTs)的可扩展性。我们发现,通过增加变换器深度/宽度或增加输入令牌数量,具有较高Gflop的DiT始终具有较低的FID。

In addition to pos- sessing good scalability properties, our largest DiT-XL/2 models outperform all prior diffusion models on the class- conditional ImageNet 512⇥512 and 256⇥256 benchmarks, achieving a state-of-the-art FID of 2.27 on the latter.

除了具有良好的可扩展性外,我们最大的DiT XL/2模型在类条件ImageNet 512上的性能优于所有先前的扩散模型⇥512和256⇥256个基准,在后者上实现了2.27的最先进FID。

256⇥256 ImageNet. Following our scaling analysis, we continue training our highest Gflop model, DiT-XL/2, for 7M steps. 

We show samples from the model in Figures 1, and we compare against state-of-the-art class-conditional generative models. 

We report results in Table 2. 

When using classifier-free guidance, DiT-XL/2 outperforms all prior diffusion models, decreasing the previous best FID-50K of 3.60 achieved by LDM to 2.27. 

Figure 2 (right) shows that DiT-XL/2 (118.6 Gflops) is compute-efficient relative to latent space U-Net models like LDM-4 (103.6 Gflops) and substantially more efficient than pixel space U-Net mod- els such as ADM (1120 Gflops) or ADM-U (742 Gflops).

256⇥256 ImageNet。在我们的缩放分析之后,我们继续训练我们的最高Gflop模型DiT XL/2,进行700万步。

我们在图1中显示了模型的样本,并与最先进的类条件生成模型进行了比较。

我们在表2中报告了结果。

当使用无分类器引导时,DiT XL/2优于所有先前的扩散模型,将LDM实现的3.60的先前最佳FID-50K降低到2.27。

图2(右)显示,DiT XL/2(118.6G触发器)相对于像LDM-4(103.6G触发器)这样的潜在空间U-Net模型具有计算效率,并且显著高于像ADM(1120触发器)或ADM-U(742触发器)那样的像素空间U-Net模型。

Our method achieves the lowest FID of all prior generative models, including the previous state-of-the-art StyleGAN- XL [53]. 

Finally, we also observe that DiT-XL/2 achieves higher recall values at all tested classifier-free guidance scales compared to LDM-4 and LDM-8. 

When trained for only 2.35M steps (similar to ADM), XL/2 still outperforms all prior diffusion models with an FID of 2.55.

我们的方法实现了所有先前生成模型中最低的FID,包括先前最先进的StyleGAN-XL[53]。

最后,我们还观察到,与LDM-4和LDM-8相比,DiT XL/2在所有测试的无分类器引导量表上都实现了更高的召回值。

当仅训练235万步(类似于ADM)时,XL/2仍然优于所有先前的扩散模型,FID为2.55。

512⇥512 ImageNet. We train a new DiT-XL/2 model on ImageNet at 512 ⇥ 512 resolution for 3M iterations with identical hyperparameters as the 256 ⇥ 256 model. 

With a patch size of 2, this XL/2 model processes a total of 1024 tokens after patchifying the 64 ⇥ 64 ⇥ 4 input latent (524.6 Gflops). Table 3 shows comparisons against state-of-the-art methods. 

XL/2 again outperforms all prior diffusion models at this resolution, improving the previous best FID achieved by ADM from 3.85 to 3.04. 

Even with the increased number of tokens, XL/2 remains compute-efficient. For exam- ple, ADM uses 1983 Gflops and ADM-U uses 2813 Gflops; XL/2 uses 524.6 Gflops. We show samples from the high-resolution XL/2 model in Figure 1 and the appendix.

512⇥512 ImageNet。我们在ImageNet上以512训练一个新的DiT XL/2模型⇥ 512分辨率,用于3M迭代,具有与256相同的超参数⇥ 256型号。

补丁大小为2,此XL/2模型在对64个进行补丁处理后,总共处理1024个令牌⇥ 64⇥ 4个潜在输入(524.6G触发器)。表3显示了与最先进方法的比较。

在该分辨率下,XL/2再次优于所有先前的扩散模型,将ADM实现的先前最佳FID从3.85提高到3.04。

即使令牌数量增加,XL/2仍保持计算效率。例如,ADM使用1983 Gflops,ADM-U使用2813 Gflops;XL/2使用524.6 Gflops。我们在图1和附录中展示了高分辨率XL/2模型的样本。

DiT Gflops are critical to improving performance. The results of Figure 6 suggest that parameter counts do not uniquely determine the quality of a DiT model. 

DiT Gflops对于提高性能至关重要。图6的结果表明,参数计数并不能唯一地决定DiT模型的质量。

As model size is held constant and patch size is decreased, the transformer’s total parameters are effectively unchanged (actually, total parameters slightly decrease), and only Gflops are increased. These results indicate that scaling model Gflops is actually the key to improved performance. 

当模型大小保持不变并且patch大小减小时,transformer的总参数有效地保持不变(实际上,总参数略有减小),并且只有Gflops增加。这些结果表明,缩放模型Gflops实际上是提高性能的关键。

To investigate this further, we plot the FID-50K at 400K training steps against model Gflops in Figure 8. The results demonstrate that different DiT configs obtain similar FID values when their total Gflops are similar (e.g., DiT-S/2 and DiT-B/4). 

为了进一步研究这一点,我们在图8中绘制了400K训练步骤下的FID-50K与模型Gflops的关系图。结果表明,当不同的DiT配置的总Gflop相似时(例如,DiT-S/2和DiT-B/4),它们获得相似的FID值。

We find a strong negative correlation between model Gflops and FID-50K, suggesting that additional model compute is the critical ingredient for improved DiT models. In Figure 12 (appendix), we find that this trend holds for other metrics such as Inception Score.

我们发现模型Gflops和FID-50K之间存在很强的负相关性,这表明额外的模型计算是改进DiT模型的关键因素。在图12(附录)中,我们发现这一趋势适用于其他指标,如初始得分。

Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing

TMT: Tri-Modal Translation between Speech, Image, and Text by Processing Different Modalities as Different Languages

摘要:

联合处理多模态信息的能力正成为一项重要任务。然而,成对的多模态数据的数量有限,以及多模态学习中的大量计算需求阻碍了这一发展。

我们提出了一种新的三模态翻译(TMT)模型,该模型可以在跨越语音、图像和文本的任意模态之间进行翻译。我们引入了一种新颖的观点,将不同的模态解释为不同的语言,并将多模态翻译视为一个公认的机器翻译问题。

为此,我们将语音和图像数据标记为离散标记,这提供了跨模态的统一接口,并显著降低了计算成本。在所提出的TMT中,多模态编码器-解码器进行核心翻译,而模态特定处理仅在标记化和去标记化阶段进行。

我们对所提出的TMT在所有六个模态翻译任务上进行了评估。TMT始终优于单一模型,这表明统一任务不仅有利于实用性,而且有利于性能。

The training data comprises Conceptual Captions 3M (CC3M), Conceptual Captions 12M (CC12M) (Sharma et al., 2018; Changpinyo et al., 2021), COCO (Lin et al., 2014), SpokenCOCO (Hsu et al., 2021b), Flickr8k (Hodosh et al., 2013), and Flickr8kAudio (Harwath and Glass, 2015). 

For COCO and Flickr8k, we employ the original corpora for image-text pairs and then further employ SpokenCOCO and Flickr8kAudio, their recorded speech version, to comprise audio-text-image tri- modal pairs. 

For CC3M and CC12M, VITS (Kim et al., 2021a), a TTS model trained on VCTK (Yamagishi et al., 2019), is employed to synthesize speech from random speakers to compile audio- text-image pairs. The evaluation is performed on the test split of COCO and Flickr8k after finetuning. The popular Karpathy splits (Karpathy and Fei-Fei, 2015) are employed for COCO and Flickr8k.

结论:

我们介绍了TMT,一种新颖的语音、图像和文本三模态翻译模型。我们将不同的模态解释为新的语言,并在标记所有模态后将MMT任务视为NMT任务。

我们的实验表明,使用多模式编码器-解码器架构,将六个MMT任务合并到一个模型中,可以成功地转换这三种模式。TMT的表现优于单一MMT模型的同行。

值得注意的是,TMT与由超过2.7B个参数组成的基于LLM的方法实现了相当的性能,而TMT只有270M个参数。

Multilingual Visual Speech Recognition with a Single Model by Learning with Discrete Visual Speech Units

本文首次用单一模型探索了句子级多语言视觉语音识别。由于视觉数据的大规模多语言建模需要巨大的计算成本,我们提出了一种新颖的策略,即使用视觉语音单元进行处理。在音频语音单元最近成功的激励下,拟议的视觉语音单元是通过离散从自我监督的视觉语音模型中提取的视觉语音特征来获得的。为了正确捕捉多语种视觉语音,我们首先在5,512小时的多语种视听数据上训练自我监督的视觉语音模型。通过分析,我们验证了视觉语音单元主要包含视觉信息,同时抑制非语言信息。通过使用视觉语音单元作为我们系统的输入,我们预先训练模型,以预测通过合并几个VSR数据库构建的大规模多语言数据的相应文本输出。由于输入和输出都是离散的,与标准VSR培训相比,我们可以大大提高培训效率。具体来说,输入数据大小减少到原始视频输入的0.016%。为了补充语音识别中视觉信息不足,我们应用课程学习,系统的输入从视听语音单元开始,并逐渐转变为视觉语音单元。预训练后,模型在连续特征上进行微调。我们通过实现与之前特定语言的VSR模型相当的性能,通过单一训练模型来设置新的最先进的多语言VSR性能。

标签:模态,XL,模型,论文,Gflops,FID,DiT
From: https://blog.csdn.net/sudun_03/article/details/136871196

相关文章

  • flask-migrate迁移ORM模型
    安装依赖(C:\ProgramData\Anaconda3)C:\Users\ychen>pipinstallflask-migrateLookinginindexes:https://mirrors.aliyun.com/pypi/simple/Collectingflask-migrateDownloadinghttps://mirrors.aliyun.com/pypi/packages/93/01/587023575286236f95d2ab8a826c......
  • 040_模型评估
    目录什么是模型评估分类模型评估回归模型评估拟合欠拟合过拟合什么是模型评估分类模型评估回归模型评估拟合欠拟合过拟合......
  • 倾斜摄影三维模型的模型合并的问题分析
    倾斜摄影三维模型的模型合并的问题分析   倾斜摄影是一种通过无人机或其他航空平台获取大范围地表影像和点云数据的技术,可以生成高分辨率、高精度的三维模型。在实际应用中,常常需要将不同区域的倾斜摄影三维模型进行合并,以便进行全局分析和应用。然而,模型合并过程中存在......
  • LLMR:使用大型语言模型实时提示交互式世界
    混合现实的大型语言模型(LLMR),这是一个用于LLMs实时创建和修改交互式混合现实体验的框架。LLMR利用新颖的策略来解决理想的训练数据稀缺的困难情况,或者设计目标需要综合内部动态、直观分析或高级交互性的情况。我们的框架依赖于文本交互和Unity游戏引擎。通过结合场景理解、......
  • 小论文
    软件质量属性指标在大型网络建设中的作用第一作者:刘晓阳(石家庄铁道大学,河北省,石家庄市)第一章引言1.研究背景随着互联网的快速发展,大型网站已成为商业、政府、媒体等领域不可或缺的存在。在大型网站建设中,软件质量属性的重要性愈发凸显。大型网站的成功与否,不仅取决于功......
  • Python 机器学习 HMM模型三种经典问题
    ​ 隐马尔可夫模型(HiddenMarkovModel,HMM)是一个强大的工具,用于模拟具有隐藏状态的时间序列数据。HMM广泛应用于多个领域,如语音识别、自然语言处理和生物信息学等。在处理HMM时,主要集中于三个经典问题:评估问题、解码问题和学习问题。三个问题构成了使用隐马尔可夫模型时的基础......
  • 视觉格式化模型
    视觉格式化模型盒模型:规定单个盒子的规则视觉格式化模型(布局规则):页面中的多个盒子的排列规则视觉格式化模型大体上将盒子的排列分为三种方式:常规流浮动绝对定位常规流布局常规六、文档流、普通文档流,常规文档流。所有元素,默认情况下,都属于常规流布局。总体规则:快盒独......
  • 【Linux】 生产消费者模型
    线程同步同步: 在保证数据安全的前提下,让线程能够按照某种特定的顺序访问临界资源,从而有效避免饥饿问题,这就叫做同步(饥饿问题:某些线程无法得到资源而长时间无法执行,常见的就是申请不到锁)竞态条件:因为时序问题,而导致程序异常,我们称之为竞态条件。单纯的加锁会引起问题。如......
  • 软件工程 第二章 过程模型
    软件工程第二章过程模型通用过程模型通用过程框架:框架活动:沟通,策划,建模,构建,部署普适性活动:项目跟踪控制,风向管理,质量保证,配置管理,技术评审等常见的过程流(processflow):线性过程流(linearprocessflow)迭代过程流(iterativeprocessflow)演化过程流(e......
  • 大语言模型的参数级别和能力之间的关系
    模型的参数数量通常被视为模型能力的一个重要指标,更多的参数意味着模型有更大的能力来学习、存储和泛化不同类型的数据。以下是这种关系的几个关键点:学习能力:参数数量越多,模型学习复杂模式的能力通常越强。这意味着大模型能够理解和生成更复杂的文本,更准确地执行特定任务......