LeCun谢赛宁首发全新视觉多模态模型，等效1000张A100干翻GPT-4V，AI视频长度扩展调优技术：ExVideo帮你轻松生成更长、更优质的视频，EVTexture：提升视频分辨率的新方法！利用

标签：模态视频 AI 模型干翻图像视觉生成

LeCun谢赛宁首发全新视觉多模态模型，等效1000张A100干翻GPT-4V，AI视频长度扩展调优技术：ExVideo帮你轻松生成更长、更优质的视频，EVTexture：提升视频分辨率的新方法！利用AI将模糊视频变清晰！

LeCun谢赛宁首发全新视觉多模态模型，等效1000张A100干翻GPT-4V，AI视频长度扩展调优技术：ExVideo帮你轻松生成更长、更优质的视频，EVTexture：提升视频分辨率的新方法！利用_视频

近日，LeCun和谢赛宁等大佬，共同提出了这一种全新的SOTA MLLM——Cambrian-1。开创了以视觉为中心的方法来设计多模态模型，同时全面开源了模型权重、代码、数据集，以及详细的指令微调和评估方法。

大多数人类知识，也都是通过视觉、听觉、触觉、味觉和嗅觉等感官体验，以及与物理世界的交互所获得。

对应到大模型的学习，虽然更大的规模可以增强多模态的能力，但视觉方面的研究和设计似乎没有跟上。

另一方面，过度依赖语言，则可能会成为多模态学习研究的瓶颈。

LeCun谢赛宁首发全新视觉多模态模型，等效1000张A100干翻GPT-4V，AI视频长度扩展调优技术：ExVideo帮你轻松生成更长、更优质的视频，EVTexture：提升视频分辨率的新方法！利用_视觉_02

近日，LeCun和谢赛宁团队推出了Cambrian-1，一项采用以视觉为中心的方法设计多模态大语言模型（MLLM）的研究，同时全面开源了模型权重、代码、数据集，以及详细的指令微调和评估方法。

论文地址：https://arxiv.org/abs/2406.16860

开源代码：https://github.com/cambrian-mllm/cambrian

Cambrian-1使用MLLM指令微调作为各种视觉表示的评估协议。

整个框架围绕五个关键方面进行构建，同时也代表了作者对MLLM设计空间的重要见解：

传统协议与使用MLLM来评估视觉表征的比较：MLM采用视觉问答来解决各种现实世界感知任务。底部突出了Cambrian-1研究的五个关键支柱

Visual Representations：探索了各种视觉编码器及其组合。

Connector Design：本文设计了一种全新的动态的空间感知连接器，将多个模型的视觉特征与LLM集成在一起，同时减少了token的数量。

Instruction Tuning Data：研究人员从公共来源收集高质量的视觉指令微调数据，同时强调数据的平衡性。

Instruction Tuning Recipes：指令微调策略和实践。

Benchmarking：分析现有的MLLM基准测试，并引入了一个全新的以视觉为中心的基准测试CV-Bench。

作为这项研究的「副产物」，团队顺便训练出了一个目前性能最强的多模态模型。(红线是GPT-4V的成绩)

论文的一作Shengbang Tong是马毅教授以前在伯克利带的学生，目前在NYU读博士一年级。

马毅教授表示，这个模型是在过去几个月借谷歌的TPU训练的（等价于1000张A100的算力）。

「所以按照现在技术路线，从头到尾做一个SOTA多模态模型，基本上没有什么学术门槛。适合学AI的研究生热身。」

世界不需要另一个MLLM对打GPT-4V

谢赛宁刚刚发文表示，「世界不需要另一个MLLM与GPT-4V竞争。Cambrian在以视觉为核心的探索是独一无二的，这也是为什么，我认为是时候将重心从扩展大模型转移到增强视觉表征了」。

他继续称，从以往的研究项目（MMVP、V*、VIRL）中，团队已经看到当前MLLM系统在视觉方面存在一些意料之外的缺陷。

虽然可以通过增加数据等方法暂时解决一些问题，但一个根本问题是——我们的视觉表征能力不足以支持模型的语言理解。

短期内，像Astra和GPT-4o这样的项目，确实令人印象深刻。

然而，要开发出一个能像人类一样感知真实世界、可靠地管理复杂任务，并做出相应行动的多模态助手，薄弱的视觉感知基础，可能会成为瓶颈。

语言先验很强大，但我们不应该用它们作为「拐杖」（引用Yann LeCun的原话）来弥补视觉表征的不足。

目前，研究视觉表征学习确实极具挑战性。

虽然基于CLIP模型（由语言强监督）已被证明很有效，但同时也存在一些问题，比如属性绑定。

然而，这些模型已经存在一段时间了，令人惊讶的是我们还没有看到任何重大突破。

另一方面，视觉自监督学习（SSL）模型虽令人印象深刻，但传统的评估方法（如线性探测或迁移到目标检测）不再有效。

尽管如此，我坚信我们应该继续向前推进。

CLIP/SigLIP模型很棒，但我们需要让方法多样化，继续探索新的可能性，而不是安于现状并宣称胜利。

这一情况让人想起2015-2016年，当时大家都认为ImageNet监督预训练天下无敌，其他视觉表征至少落后10-15%。

但是，研究人员们可没被吓倒，还是继续琢磨各种新方法和任务。

直到几年后，MoCo就展示了超越监督预训练模型的潜力。

这也是开发Cambrian项目的重要原因——为更多以视觉为中心的探索铺平道路。

之所以将模型称为Cambrian（寒武纪），因为就像寒武纪大爆发时生物发展出更好的视觉能力一样，研究团队相信改进的视觉能力不仅仅是看得更远，而是更深入地理解。

最后的最后，谢赛宁还分享了本人的一些感悟：

当我从业界转到学术界时，我并不确定，我们是否能完成这种需要全栈技能的大型项目。如果没有谷歌TPU研究云计划的支持，这个项目是不可能完成的（非常感谢Jeff Dean和Demis Hassabis对学术界的持续支持）。我认为Cambrian项目证明了学界和业界是可以互补的。

爱丁堡大学机器学习博士Yao Fu表示，作为一个想要了解视觉语言的LLM学者，我发现这篇论文有极高信息量，直接回答了我的困惑。

斯坦福大学博士后研究员Karl Pertsch畅想了这项研究的前景，他认为，视觉语言模型（VLMs）在视觉方面还有很大的改进空间，机器人学也可能是一个很好的测试平台！

「对于视觉语言动作（VLA）训练（即视觉语言模型+动作），我们发现现有的视觉编码器需要大量的微调，才能在机器人控制中表现良好，不过在这一领域的评估并不容易」。

一起看看这项研究的技术细节。

开始热身

在当前的MLLM研究中，视觉组件的设计选择通常没有得到充分探索，并且与视觉表征学习研究脱节。

这种差距，阻碍了现实场景中准确的感官基础。

这项研究的动机，正是源于当前多模态学习研究存在的两个潜在问题。

过早地依赖语言可能会成为一种捷径，弥补学习有效视觉表征的缺陷
现有的基准可能无法为现实场景提供足够的指导，毕竟，视觉基础对于稳健的多模态理解至关重要

如上文所言，这些担忧并非空穴来风，因为研究人员已经开始注意到，视觉基础早已成为在具有挑战性的现实世界中应用MLLM的瓶颈。

与此同时，用于视觉表征学习的传统评估基准（例如，在ImageNet-1K、COCO和ADE20K等数据集上进行线性探测和端到端微调）正在变得饱和，并不能反映现实世界分布中的多样化感知挑战。

相比之下，使用视觉问答（VQA）形式的语言提供了灵活且强大的评估基准。

而这项研究，就探索了全新的协议基准，从而更好地指导未来的视觉表征开发。

各种视觉模型、目标和架构的示例

多模态领域的基准测试
为了有效评估视觉表征和MLLM，首先就需要选择能够准确评估它们多模态功能的基准。

谁来回答这个问题：LLM还是MLLM？确定基准是否真正需要视觉输入来解决，一直是视觉语言研究中的挑战。

为此而，研究人员比较了使用23个不同视觉主干训练的MLLM，分别禁用和启用它们的视觉能力并且通过随机猜测，计算了预期分数。

MLLM在启用和禁用视觉输入情况下，在不同基准测试中的表现

实验结果：一些基准（比如MMMU和AI2D）不太依赖视觉输入，而在其他基准（如MMVP和MME）上则出现了显著的性能下降，表明后者能够对MLLM进行有效评估。

基于性能指标的主成分分析，显示基准测试的聚类情况

通过对各种基准上的MLLM性能的相关性分析和主成分分析，可以得到不同的聚类：蓝色的「通用」、黄色的「知识」、红色的「图表与OCR」和蓝色的「以视觉为中心」。

上图中的圆圈大小表示基准的不同规模，可以看到，以视觉为中心的基准非常稀缺。

于是，为了更好地评估真实环境中的视觉表征，研究人员通过将传统视觉基准转换为VQA格式，开发了一个以视觉为中心的MLLM基准——CV-Bench。

CV-Bench通过空间关系和物体计数评估2D理解，通过深度顺序和相对距离评估3D理解。

CV-Bench重新利用标准视觉任务进行多模态评估，包含约2600个VQA问题。

指令微调
一阶段与两阶段训练

MLLM一般使用MLP作为连接器连接预先训练的LLM和视觉骨干网。

不过最近的研究建议跳过连接器预训练以降低计算成本（同时不影响性能）。

于是作者用不同大小的适配器数据进行了实验，遵循LLaVA的方法，最初仅微调连接器，然后解冻LLM和连接器。

下图表明，预训练连接器可以提高性能，而使用更多适配器数据可以进一步增强性能，所以这里采用1.2M适配器数据标准化2阶段训练方法。

冻结与解冻视觉编码器

在微调期间可以选择冻结或解冻视觉主干网络。一些人认为，解冻视觉主干会显著降低性能。

本文的实验表明，在合理的视觉模型学习率下，除了知识基准的边际变化之外，解冻有利于提高所有基准测试的性能。

MLLM作为视觉模型评估器
使用2阶段指令微调、1.2M适配器数据、737K微调数据来比较各种视觉模型对下游MLLM性能的影响。

评估结果表明，语言监督模型在所有基准类别中都表现出强大的优势，尤其是在OCR和图表任务中。

另外，尽管DINOv2等SSL模型的数据集较小，但它们在以视觉为中心的基准测试中表现很不错。

基于语言监督和自监督视觉编码器的MLLM在各类基准测试中的性能排名，包括所有基准测试（All）、一般类（G）、知识类（K）、OCR和图表类（O）、以及以视觉为中心的基准测试（V）。

组合多个视觉编码器

不同的视觉模型在MLLM性能的不同方面表现各有千秋。研究人员于是探索了组合多个视觉编码器以利用其独特的潜力。

鉴于不同的视觉编码器使用不同的架构和图像分辨率，这里将输出视觉标记插值到固定数字576。结果如下，随着更多模型的添加，性能得到了一致的改进。

然而，这种策略有两个局限性：1）采用插值可能会导致信息丢失，特别是在具有高分辨率特征图的视觉编码器上，2）不应简单的串联每个模型，而是需要寻求一种更有效的策略，充分利用模型组合，使信息损失更少，灵活性更大。

缩小CLIP和SSL模型之间的差距

在上面的结果中，DINOv2在一般VQA和知识VQA任务上，表现处于SSL模型和CLIP模型之间，而在以视觉为中心的基准测试中优于某些CLIP模型。

研究人员尝试解冻视觉主干并增加视觉微调数据量，以缩小这一差距。

通过解冻视觉主干，并使用5M数据进行微调，基于DINOv2的MLLM超过了使用CLIP模型的MLLM（0.7M训练数据）。

此外，在5M数据的实验设置下，DINOv2与CLIP模型之间的差距缩小了。

新的连接器设计
为了有效地聚合来自多个视觉编码器的特征并减少插值期间的信息丢失，这里使用一组可学习的潜在查询，它们通过交叉注意力层与多个视觉特征交互。

方法结合了两个新的以视觉为中心的设计原则：

1.通过显式本地化查询中每个标记的聚合空间来编码空间归纳偏差。

2.在LLM层中多次执行视觉特征聚合，允许模型重复引用必要的视觉信息。

指令微调数据
研究人员收集了所有可用的指令微调数据，并通过增强多样性、平衡来源和改进混合来检查数据管理。

数据采集

作者首先使用涉及视觉交互数据的现有多模态基准和数据集，例如视觉问答（VQA）和OCR数据。此外还收集了少量高质量的语言指令跟踪数据，以维持其语言能力。

作者还推出了一个数据引擎，帮助创建大规模、可靠、高质量的基于知识的多模态指令微调数据。

最终，这些数据构成了一个大型指令微调数据池——Cambrian-10M，包含大约9784k个数据点。

另外，研究人员还通过改进数据平衡和微调数据比率来进行数据管理。

为来自单个数据源的数据点数量设置阈值t，选择t=150k、250k、350k和450k，发现250k和350k之间的阈值对于Cambrian-10M效果最佳。

考虑到不同类型的视觉指令微调数据的不同能力，平衡这些数据类型的比例至关重要。

使用1350k的固定数据集大小进行试点实验，检查不同数据比例对下游性能的影响。从下图的结果可以发现：

（1）平衡一般数据、OCR和语言数据至关重要。（2）知识密集型任务的表现受到多种因素的影响，通常需要结合OCR、图表、推理和一般感知。

答录机现象
在这里，研究人员观察到了一种「答录机现象」。

他们发现，训练有素的MLLM在VQA基准测试中表现出色，却往往缺乏基本的对话能力，倾向于输出简短的响应。

这种差异的原因在于，基准测试问题通常只需要一个选项、选择或单词的回答，这与MLLM在更广泛和现实的应用场景中有所不同。

研究人员认为，这个问题是由于指令微调数据中包含了过多的简答VQA任务，导致大语言模型出现了灾难性遗忘。

作者发现，在训练期间加入额外的系统提示可以减轻这种现象。

通过附加诸如「用一个单词或短语回答问题」之类的提示，模型的基准性能保持不变，而其会话能力显著提高。

比如下图中，带有系统提示的模型会在正确回答问题的同时，产生更长、更有吸引力的回答。

而且，系统提示还会通过鼓励一连串的思考，来增强模型在推理任务（如数学问题）上的表现。

SOTA MLLM
最后，研究人员基于之前的设计框架，训练一个高性能的Cambrian模型。

他们使用了三种参数大小的LLM进行了训练：LLaMA-3-Instruct-8B、Vicuna-1.5-13B、Hermes-2-Yi-34B。

视觉部分结合了四种模型——SigLIP、CLIP、DINOv2和OpenCLIP ConvNeXt，并使用了空间视觉聚合器。

与此同时，训练过程中采用了250万条适配器数据，以及700万条指令微调数据。

经过实验评估，性能结果如下，Cambrian-1超越了其他开源模型，如LLaVA-NeXT和Mini-Gemini，并在多个基准测试上达到了与最佳专有模型（如GPT-4V、Gemini-Pro和MM-1）相当的性能。

Cambrian-1仅仅使用了576个token，却仍能有效关注图像中的细节。

Cambrian-1-34B在视觉交集方面，展示了令人印象深刻的能力。

从最下面的示例可以看出，它展示出了指令跟随能力，例如json格式的输出。

另外，从下图中模型处理不同的逗号的示例可以看出，Cambrian-1还表现出了卓越的OCR能力。

作者介绍

Shengbang Tong

Peter Tong（Shengbang Tong，童晟邦）是NYU Courant CS的一名博士生，导师是Yann LeCun教授和谢赛宁教授。

此前，他在加州大学伯克利分校主修计算机科学、应用数学（荣誉）和统计学（荣誉）。

并曾是伯克利人工智能实验室（BAIR）的研究员，导师是马毅教授和Jacob Steinhardt教授。他的研究兴趣是世界模型、无监督/自监督学习、生成模型和多模态模型。

Penghao Wu
Penghao Wu是加州大学圣地亚哥分校计算机科学专业的硕士研究生，此前于2018年在上海交通大学获得电子与计算机工程学士学位。

目前，他在纽约大学做研究实习生，导师是谢赛宁教授。

Ellis Brown

Ellis Brown是纽约大学Courant计算机科学博士生，导师是谢赛宁和Rob Fergus，并获得了NDSEG奖学金。

最近，他于卡内基梅隆大学获得硕士学位，导师是Deepak Pathak和Alyosha Efros。在此之前，于范德比尔特大学获得了计算机科学和数学的学士学位，并与Maithilee Kunda一起研究CoCoSci和视觉。

此外，他曾在艾伦人工智能研究所的PRIOR团队进行过实习，导师是Ross Girshick。并且还是BlackRock AI Labs的创始研究工程师，与Mykel Kochenderfer、Stephen Boyd和Trevor Hastie合作进行应用研究与金融研究。

参考资料：

https://arxiv.org/abs/2406.16860

https://cambrian-mllm.github.io/?continueFlag=c3ff0151e0b0bce48c0e12eb01147acc

AI视频长度扩展调优技术：ExVideo帮你轻松生成更长、更优质的视频

简介
ExVideo是阿里巴巴和华东师范大学的研究人员推出的一种视频生成模型的后调优技术。该技术可以扩展现有视频生成模型的时间尺度，从而生成更长、更丰富的视频内容。研究团队基于Stable Video Diffusion模型，训练了一种能够生成长达128帧视频的扩展模型，同时保留了原始模型的生成能力。

通过优化3D卷积、时间注意力和位置嵌入等时间模块，ExVideo使模型能够处理更长时间跨度的内容。在保持原始模型生成能力的同时，显著增加了视频帧数。此外，该技术的训练成本较低，非常适合计算资源有限的情况。

视频加载失败，请刷新页面再试

刷新
功能特点
时间尺度扩展能力
ExVideo突破了传统视频生成模型的时间限制，能够生成更长的视频序列，从而允许用户讲述更加丰富和完整的故事，或者展示更加连续的动态场景。

创新的后调优策略
ExVideo采用了创新的后调优方法，对现有的Stable Video Diffusion等模型进行针对性的再训练，以生成长达128帧甚至更长的视频。这种方法不仅延长了视频的持续时间，还保持了模型的泛化能力，确保了视频的多样性和适应性。

参数优化高效
与传统的视频训练方法相比，ExVideo的后调优策略避免了从头开始训练新模型的需要，而是在现有模型的基础上进行优化，大幅度减少了所需的参数量和计算资源，提高了模型扩展的效率和实用性。

高质量视频生成
ExVideo在扩展视频长度的同时，注重视频质量的维护。生成的视频在视觉连贯性、清晰度和整体质量上均达到了高标准。

广泛的兼容性和通用性
ExVideo的设计考虑了与多种视频生成模型的兼容性，使其能够适用于各种视频生成任务。无论是3D卷积、时间注意力机制还是位置嵌入技术，ExVideo都能够提供相应的扩展策略，以适应不同的模型架构。

ExVideo 技术原理
参数后调优（Post-Tuning）
ExVideo通过参数后调优的方法对现有视频生成模型进行改进。这种策略包括对模型的特定部分进行再训练，而不是重新训练整个模型，从而显著提高效率。

时间模块扩展
ExVideo针对视频生成模型的时间模块提出了以下扩展策略：

3D卷积层：用于捕捉视频中的时间维度特征。ExVideo保留了原始模型中的3D卷积层，因为它们能够适应不同的时间尺度，无需额外的微调。
时间注意力机制：为了提高模型处理长时间序列的能力，ExVideo对时间注意力模块进行了微调，以帮助模型更好地理解视频内容的时间连贯性。
位置嵌入：ExVideo引入了可训练的位置嵌入，并通过循环模式初始化，以适应更长的视频序列。
身份3D卷积层（Identity 3D Convolution）
在位置嵌入层之后，ExVideo引入了一个额外的身份3D卷积层，用于学习长期视频特征。该层在训练前初始化为单位矩阵，确保不会改变视频表示，保持与原始模型的一致性。

工程优化
ExVideo采用了以下工程优化技术以实现在有限计算资源下的高效训练：

参数冻结
混合精度训练
梯度检查点技术
使用DeepSpeed库分片优化器状态和梯度
训练过程
ExVideo使用公开可用的数据集OpenSoraPlan2进行训练，该数据集包含大量视频，以增强模型生成多样化视频的能力。

损失函数和噪声调度
在训练过程中，ExVideo保持了与原始模型一致的损失函数和噪声调度策略，确保了模型训练的稳定性和效率。

项目地址
https://ecnu-cilab.github.io/ExVideoProjectPage/

EVTexture：提升视频分辨率的新方法！利用AI将模糊视频变清晰

EVTexture是一种提升视频清晰度的新方法，专门利用事件信号进行纹理增强。EvTexture特别关注于利用事件相机捕获的高频动态细节来改善视频的纹理质量。专门利用“事件相机"捕捉到的快速变化信息来增强视频中的纹理细节。

事件相机是一种特殊的相机，它能非常快速地记录下场景中的变化。普通相机是每秒固定拍摄很多张图片，而事件相机只在某个像素发生亮度变化时记录数据，所以它能够捕捉到非常细微和快速的变化。这些变化包含了非常高的时间分辨率和动态范围的信息。这些信息对普通相机来说是无法捕捉到的。

然后利用这些快速变化的信息来改善视频中细小的、复杂的部分，比如树叶的细节、衣服的纹理等等。通过这些高频细节信息，可以使视频变得更加清晰和真实。

EvTexture解决了什么问题：

1.细节恢复不佳:普通方法在恢复视频中的细节时效果不理想，尤其是纹理丰富的区域(如树叶和布料上的细节)。EVTexture利用事件相机记录的高频变化信息，专门增强这些区域的细节，使得视频更加清晰。

2.时间一致性差:在播放视频时，保持每一帧之间的细节一致性是一个难题。EvTexture通过多次迭代优化细节信息，确保在时间轴上每一帧的细节都能保持一致，看起来更加平滑。

3.基于事件的VSR方法的局限:以前的方法主要是利用事件信息来提升运动细节（如物体的移动)，而忽略了事件信息中的细节部分。EvTexture是第一个专门利用事件信息来增强视频细节的方法，因此在恢复纹理细节方面效果显著提升。

GitHub地址：
https://github.com/DachunKai/EvTexture

视觉多模态模型（Visual Multimodal Models）结合了多种数据模式（如图像、文本、音频等），在视觉任务中表现出强大的能力。

1. CLIP (Contrastive Language-Image Pretraining)

简介: CLIP 是由 OpenAI 提出的，结合视觉和文本数据，通过对比学习进行预训练，使模型可以理解图像和文本之间的关系。
用途: 图像分类、文本引导图像检索、零样本学习等。
链接: CLIP GitHub

2. DALL-E

简介: 由 OpenAI 开发的生成模型，可以根据文本描述生成图像，将语言和视觉数据相结合。
用途: 文本生成图像、创造性内容生成。
链接: DALL-E GitHub

3. Flamingo

简介: DeepMind 开发的视觉多模态模型，支持图像-文本联合建模，特别擅长图文匹配和生成任务。
用途: 图像描述生成、视觉问答等。
链接: Flamingo GitHub

4. ViLT (Vision-and-Language Transformer)

简介: ViLT 是一种简化的视觉语言模型，直接处理图像和文本，无需复杂的视觉特征提取器。
用途: 视觉问答、图像字幕生成、图文检索等。
链接: ViLT GitHub

5. Oscar (Object-Semantics Aligned Pre-training)

简介: Oscar 使用视觉和语言对齐的方式，通过检测目标对象和语义信息进行多模态预训练。
用途: 视觉问答、图文匹配、文本生成图像等。
链接: Oscar GitHub

6. LXMERT

简介: LXMERT 是一个多模态的 Transformer 模型，用于处理视觉语言任务，通过视觉和语言模块的联合训练实现。
用途: 视觉问答、图像字幕生成、视觉推理等。
链接: LXMERT GitHub

7. VILBERT (Vision-and-Language BERT)

简介: ViLBERT 扩展了 BERT，用于视觉语言任务，通过视觉和文本的双流架构实现多模态学习。
用途: 视觉问答、图像字幕生成等。
链接: ViLBERT GitHub

8. VisualBERT

简介: VisualBERT 将视觉信息直接融入 BERT 架构中，适用于多种视觉语言任务。
用途: 图像描述、视觉问答、图文匹配等。
链接: VisualBERT GitHub

9. UNITER (UNiversal Image-TExt Representation)

简介: UNITER 是一种视觉语言预训练模型，通过联合优化多种任务来提升视觉文本理解能力。
用途: 图文匹配、图像字幕、视觉问答等。
链接: UNITER GitHub

10. BLIP (Bootstrapping Language-Image Pre-training)

- **简介**: BLIP 是一种多模态模型，结合图像和文本数据进行自监督预训练，支持视觉语言理解和生成任务。
- **用途**: 图像字幕生成、视觉问答、图文检索等。
- **链接**: [BLIP GitHub](https://github.com/salesforce/BLIP)

11. Visual ChatGPT

- **简介**: 将视觉输入和 ChatGPT 结合起来，提供多模态对话能力，支持图文交互。
- **用途**: 图像描述、视觉问答、对话系统。
- **链接**: [Visual ChatGPT GitHub](https://github.com/microsoft/visual-chatgpt)

12. PaLM-E

- **简介**: Google 推出的多模态模型，结合语言和视觉信息，广泛应用于生成和理解任务。
- **用途**: 文本引导图像生成、视觉问答等。
- **链接**: [PaLM-E GitHub](https://github.com/google-research/palm-e)

13. MPLUG (Multimodal Plug-and-Play)

- **简介**: MPLUG 是一种多模态模型，旨在通过模块化设计轻松集成多种视觉语言任务。
- **用途**: 图像字幕、视觉问答、文本生成图像等。
- **链接**: [MPLUG GitHub](https://github.com/alibaba/AliceMind/tree/main/MPLUG)

14. SimVLM (Simple Visual Language Model)

- **简介**: SimVLM 采用统一的 Transformer 架构，支持多模态任务，通过简单的设计实现高效的视觉语言建模。
- **用途**: 图文检索、视觉问答等。
- **链接**: [SimVLM GitHub](https://github.com/google-research/simvlm)

15. ImageBind

- **简介**: ImageBind 是 Meta AI 提出的视觉多模态模型，将视觉、文本、音频等数据模式结合进行统一建模。
- **用途**: 图像描述、跨模态检索、音频视觉匹配等。
- **链接**: [ImageBind GitHub](https://github.com/facebookresearch/ImageBind)

16. OFA (One For All)

- **简介**: OFA 旨在通过一个统一的框架来处理多种多模态任务，包括图像字幕生成、视觉问答、文生图等。
- **用途**: 视觉问答、文本生成图像等。
- **链接**: [OFA GitHub](https://github.com/OFA-Sys/OFA)

17. Align before Fuse

简介: 这是一种多模态学习方法，专注于在融合视觉和文本数据之前进行对齐，以提升模型表现。
用途: 图文匹配、视觉问答等。
链接: Align before Fuse GitHub

18. GIT (Generative Image2Text)

简介: GIT 是微软推出的视觉多模态生成模型，结合图像和文本任务来生成自然语言描述。
用途: 图像字幕、视觉问答等。
链接: GIT GitHub

19. BEiT-3 (BERT Pre-Training of Image Transformers)

简介: BEiT-3 是一种多模态大模型，将图像和文本数据通过统一的 Transformer 框架结合。
用途: 视觉问答、图像描述等。
链接: BEiT-3 GitHub

20. X-VLM

简介: X-VLM 是一种视觉语言模型，通过跨模态的联合学习实现多模态理解和生成任务。
用途: 图像描述、视觉问答、图文检索等。
链接: X-VLM GitHub

以下是20个在线可以免费使用的视觉多模态模型或相关平台的推荐，附带详细介绍和访问链接。这些平台通常提供API、Web界面或在线工具，方便用户直接测试和使用模型的多模态能力。

1. OpenAI DALL-E 2

简介: DALL-E 2 是 OpenAI 开发的多模态模型，可以根据文本生成高质量的图像。提供了免费的在线体验，适合文本到图像生成。
用途: 文本生成图像、创造性内容设计。
链接: DALL-E 2

2. Midjourney

简介: Midjourney 是一个文本到图像生成平台，可以通过 Discord 进行免费试用，根据描述生成创意插图。
用途: 图像生成、艺术创作、设计辅助。
链接: Midjourney

3. Stable Diffusion Web (DreamStudio)

简介: DreamStudio 提供基于 Stable Diffusion 的图像生成服务，支持文本描述生成图像，并可在线免费试用一定的次数。
用途: 文本生成图像、图像编辑等。
链接: DreamStudio

4. Google Imagen

简介: Google Imagen 是一种文本到图像生成模型，具备优秀的图像生成能力，通过在线演示体验其强大功能。
用途: 文本生成图像、图像生成研究。
链接: Google Imagen

5. OpenAI CLIP Playground

简介: OpenAI 提供的 CLIP Playground 可在线体验 CLIP 模型的文本-图像检索功能，支持文本描述图像匹配。
用途: 图像检索、文本到图像匹配。
链接: CLIP Playground

6. Microsoft Azure Computer Vision

简介: Microsoft Azure 提供的计算机视觉 API 可以执行 OCR、图像分析、标签生成等多模态任务，部分功能可免费试用。
用途: 图像识别、标签生成、OCR。
链接: Azure Computer Vision

7. Hugging Face Spaces

简介: Hugging Face Spaces 提供了多个视觉多模态模型的在线演示，包括 CLIP、BLIP、DALL-E Mini 等，支持直接在线体验。
用途: 图像生成、图像描述、视觉问答。
链接: Hugging Face Spaces

8. RunwayML

简介: RunwayML 提供在线平台，集成多个视觉多模态模型如 Stable Diffusion、CLIP，支持文本生成图像、视频编辑等多种任务。
用途: 图像生成、视频编辑、多模态创作。
链接: RunwayML

9. DeepAI Text to Image API

简介: DeepAI 提供的在线服务可以将文本描述转换为图像，使用简单，且提供一定的免费使用额度。
用途: 文本生成图像、图像创作。
链接: DeepAI Text to Image

10. Canva Text to Image

简介: Canva 提供的文本到图像工具可以在线免费使用，根据描述生成插图，非常适合设计师和创作者。
用途: 图像生成、创意设计。
链接: Canva Text to Image

11. Artbreeder

简介: Artbreeder 是一个 AI 驱动的创意平台，可以通过混合和编辑图像生成新的视觉内容，支持多模态图像创作。
用途: 图像生成、图像混合、创意设计。
链接: Artbreeder

12. Lobe

简介: Lobe 是 Microsoft 开发的一款简单易用的视觉多模态工具，支持图像分类、识别等任务，无需编程，支持在线免费使用。
用途: 图像分类、对象识别。
链接: Lobe

13. PaddleGAN

简介: PaddleGAN 提供了一个在线平台，支持视频修复、图像修复、图像生成等多模态任务，可免费在线体验。
用途: 图像生成、视频增强、修复。
链接: PaddleGAN

14. Remove.bg

简介: Remove.bg 是一个在线图片背景移除工具，利用视觉多模态技术轻松去除图像背景，支持免费使用。
用途: 背景移除、图像编辑。
链接: Remove.bg

15. Deep Dream Generator

简介: Deep Dream Generator 提供了一个在线平台，可以将图像转化为具有艺术风格的生成图像，通过多模态模型实现图像编辑。
用途: 图像生成、风格迁移。
链接: Deep Dream Generator

16. Let’s Enhance

简介: Let’s Enhance 提供在线图像增强服务，利用 AI 技术提升图像质量、分辨率，支持免费体验。
用途: 图像增强、分辨率提升。
链接: Let’s Enhance

17. Fotor GoArt

简介: Fotor 的 GoArt 工具可以将照片转化为艺术风格的图像，支持多种艺术效果的在线免费使用。
用途: 图像风格迁移、艺术创作。
链接: Fotor GoArt

18. Pixray

简介: Pixray 是一个在线的 AI 艺术生成平台，可以根据文本描述生成抽象艺术图像，提供了多种创意选项。
用途: 文本到图像生成、艺术创作。
链接: Pixray

19. ZMO.AI

简介: ZMO.AI 提供了多种 AI 驱动的视觉工具，包括背景移除、图片增强、图像生成等，支持在线免费使用。
用途: 图像处理、图像生成。
链接: ZMO.AI

20. DeepDream

简介: DeepDream 是 Google 开发的图像处理工具，利用神经网络生成具有幻觉效果的图像，可在线体验。
用途: 图像生成、艺术创作。
链接: DeepDream

这些平台和工具均支持在线免费使用，部分可能有使用限制或提供免费额度，可以直接在网页或 API 上进行测试，适用于多种视觉多模态任务。

标签：模态,视频,AI,模型,干翻,图像,视觉,生成
From： https://blog.51cto.com/u_12763213/12089394