Visual Instruction Tuning

时间：2024-05-22 17:30:15浏览次数：29

标签：Tuning 模型 Instruction Visual 指令 LLM GPT 视觉语言

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

37th Conference on Neural Information Processing Systems (NeurIPS 2023)

Abstract

　　使用机器生成的指令跟踪数据的指令调优大语言模型（LLM）已被证明可以提高新任务的零样本能力，但这一想法在多模态领域的探索较少。我们首次尝试使用纯语言GPT-4来生成多模态语言-图像指令跟随数据。通过对这些生成的数据进行指令调整，我们引入了LLaVA：大型语言和视觉助手，这是一种端到端训练的大型多模态模型，连接视觉编码器和LLM，用于通用视觉和语言理解。为了促进未来对视觉指令跟随的研究，我们构建了两个具有多样性和挑战性的应用型任务的评估基准。我们的实验表明，LLaVA表现出令人印象深刻的多模态聊天能力，有时在没见过的图像/指令上表现出多模态GPT-4的行为，在合成的多模态指令跟随数据集上与GPT-4的相对得分为85.1%。当对Science QA进行微调时，LLaVA和GPT-4的协同作用达到了92.53%的最先进精度。我们公开GPT-4生成的可视化指令调优数据、我们的模型和代码。

1 Introduction

　　人类通过视觉和语言等多种渠道与世界互动，因为每个渠道在表达和交流某些概念方面都具有独特的优势，从而有助于更好地理解世界。人工智能的核心愿望之一是开发一种通用助手，它可以有效地遵循多模态视觉和语言指令，与人类在野外完成各种现实世界任务的意图相一致[4，26]。

　　为此，社区对开发语言增强基础视觉模型[26，16]产生了新的兴趣，该模型在开放世界视觉理解方面具有强大的能力，如分类[39，21，56，53，38]、检测[28，61，32]、分割[25，62，57]和文字说明[49，27]，以及视觉生成和编辑[41，42，55，15，43，29]。我们向读者推荐《计算机视觉在野外》阅读列表，以获取最新的文献汇编[12]。在这项工作中，每个任务都由一个大型视觉模型独立解决，在模型设计中隐含地考虑了任务指令。此外，语言仅用于描述图像内容。虽然这使语言能够在将视觉信号映射到语言语义（人类交流的常见渠道）方面发挥重要作用，但它导致模型通常具有固定的界面，交互性和对用户指令的适应性有限。

　　另一方面，大型语言模型（LLM）表明，语言可以发挥更广泛的作用：通用助理的通用接口，在该接口中，各种任务指令可以用语言明确表示，并引导端到端训练的神经助理切换到感兴趣的任务来解决它。例如，最近ChatGPT[34]和GPT-4[35]的成功证明了对齐LLM在遵循人类指令方面的强大作用，并激发了开发开源LLM的巨大兴趣。其中，LLaMA[48]是一种与GPT-3性能相匹配的开源LLM。羊驼[47]、维库纳[9]、GPT-4-LLM[37]利用各种机器生成的高质量指令跟随样本来提高LLM的对齐能力，与专有LLM相比，报告了令人印象深刻的性能。重要的是，这一行仅为文本。

　　在本文中，我们提出了视觉教学调优，这是首次尝试将教学调优扩展到语言图像多模式空间，为构建通用的视觉助手铺平道路。特别是，我们的论文做出了以下贡献：

多模式指令遵循数据。一个关键的挑战是缺乏视觉语言教学遵循数据。我们使用ChatGPT/GPT-4提供了一种数据改革视角和管道，将图像-文本对转换为适当的指令-遵循格式。
大型多模式模型。我们开发了一个大型多模式模型（LMM），通过连接CLIP[39]的开集视觉编码器和语言解码器Vicuna[9]，并对我们生成的教学视觉语言数据进行端到端微调。我们的实证研究验证了使用生成的数据进行LMM指令调整的有效性，并为构建遵循视觉代理的通用指令提供了实用提示。当与GPT-4集成时，我们的方法在Science QA[33]多模式推理数据集上实现了SoTA。
遵循基准的多模式教学。我们为LLaVA Bench提供了两个具有挑战性的基准，包括各种配对图像、说明和详细注释。
开源。我们向公众发布了以下资产：生成的多模式指令数据、代码库、模型检查点和可视化聊天演示。

2 Related Work

3 GPT-assisted Visual Instruction Data Generation

4 Visual Instruction Tuning

4.1 Architecture

4.2 Training

5 Experiments

5.1 Multimodal Chatbot

5.2 ScienceQA

6 Conclusion

标签：Tuning,模型,Instruction,Visual,指令,LLM,GPT,视觉,语言
From： https://www.cnblogs.com/lucifer1997/p/18206769

currentTuningFileInfoRef.current = useMemo(() => { return tuningFileOptionsMemo?
在React中，useMemo和useEffect都是Hooks，但它们各自有不同的用途和适用场景。上述代码片段使用了useMemo来memoize（记忆化）一个计算结果，确保只要依赖项（tuningFileOptionsMemo和currentTuningFileId）不变，返回的引用也不会改变。这样做可以避免在每次渲染时都进行查找操作，从而提......
Visual Studio(VS)常用快捷键整理
前言在使用VisualStudio编写代码时，使用快捷键能够提高编码效率，作为程序员，我们有必要记住一些比较常用的快捷键。这篇文章将记录我自己比较常用的快捷键，并根据我的使用情况，更新常用快捷键，以便更快更高效地编写代码，建议收藏到浏览器文件夹，并通过Ctrl+F，输入关键字快速定位到需......
Visual Studio 2015 编写 CUDA 关键字高亮并自动补全_cuda vs 波浪线
CSDN搬家失败，手动导出markdown后再导入博客园第一步，是在vs2015里面设置vc++文件支持.cu;cuh;文件。方法：工具->选项->文本编辑器->文件扩展名。得到如图所示的界面：注意，在右侧可以添加vc++类型的文件扩展名，这是我的设置效果，操作就不用细说了。![[output/attachme......
Microsoft Visual Stdio 2022的初学者使用方法
1.点击创建新项目2.创建一个向导3.点击桌面向导，建一个控制台应用程序4.点击视图里面的解决方案资源管理器ect5.成功建立 ......
SimCLR: 一种视觉表征对比学习的简单框架《A Simple Framework for Contrastive Learn
现在是2024年5月18日，好久没好好地看论文了，最近在学在写代码+各种乱七八糟的事情，感觉要和学术前沿脱轨了(虽然本身也没在轨道上，太菜了)，今天把师兄推荐的一个框架的论文看看(视觉CV领域的)。20:31，正经的把这篇论文看完。论文：ASimpleFrameworkforContrastiveLearningofVisua......
关于“error: Microsoft Visual C++ 14.0 is required. Get it with "Build Tools for
安装库之前一定要注意python版本，今天鬼迷日眼的装一堆堆库，一个回车冒出来这个鬼问题。百度无果后灵光乍现，只安装报错时对应的库：condainstallnumpy==1.20.1结果在输出里找出这一段：Specifications:-numpy==1.20.1->python[version='>=3.7,<3.8.0a0|>=3.8,<3.9.0a0|>=......
visual studio installer“无法下载安装，请检查网络连接”问题的解决方法
打开“网络适配器”打开“属性”选择“Internet协议版本4（TCP/IPv4）”选择“属性”双击进入选择“使用下面的DNS服务器地址（E）”首选DNS服务器填写：114.114.114.114备用DNS服务器填写：8.8.8.8 ......
CodeGeeX 智能编程助手 6 项功能升级，在Visual Studio插件市场霸榜2周！
CodeGeeX是支持适配VisualStudio2019的唯一一款国产智能辅助编程工具，已经在VisualStudio趋势上霸榜2周！CodeGeeXv1.0.4版本上线VisualStudio插件市场，带来了多项新功能和性能优化，提升编程体验。新功能亮点速览：一、侧边栏工具箱功能v1.0.4版本中，CodeGeeX新增了侧边栏工具箱......
Visual Studio中的四款代码格式化工具
前言今天大姚给大家分享四款VisualStudio中的代码格式化工具、扩展插件。大家可以在VisualStudio中的管理扩展或者插件市场下载安装。代码格式化工具的作用自动调整代码的布局和风格，以确保代码具有统一的格式，提高可读性并减少潜在的错误。VisualStudio中的管理扩展插件市......
Visual Components 3D工厂仿真与物流规划解决方案
VisualComponents是新一代的数字化工业仿真软件，涵盖3D工艺仿真、装配仿真、人机协作、物流仿真、机器人仿真、虚拟调试、数字孪生工厂等功能于一体的数字化工业仿真平台。在智能制造的发展过程中，3D仿真技术已经成为推动产业升级、优化生产流程的重要工具。VisualComponents......

Visual Instruction Tuning

相关文章

赞助商

阅读排行