首页 > 其他分享 >Visual Instruction Tuning

Visual Instruction Tuning

时间:2024-05-22 17:30:15浏览次数:26  
标签:Tuning 模型 Instruction Visual 指令 LLM GPT 视觉 语言

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

37th Conference on Neural Information Processing Systems (NeurIPS 2023)

 

Abstract

  使用机器生成的指令跟踪数据的指令调优大语言模型(LLM)已被证明可以提高新任务的零样本能力,但这一想法在多模态领域的探索较少。我们首次尝试使用纯语言GPT-4来生成多模态语言-图像指令跟随数据。通过对这些生成的数据进行指令调整,我们引入了LLaVA:大型语言和视觉助手,这是一种端到端训练的大型多模态模型,连接视觉编码器和LLM,用于通用视觉和语言理解。为了促进未来对视觉指令跟随的研究,我们构建了两个具有多样性和挑战性的应用型任务的评估基准。我们的实验表明,LLaVA表现出令人印象深刻的多模态聊天能力,有时在没见过的图像/指令上表现出多模态GPT-4的行为,在合成的多模态指令跟随数据集上与GPT-4的相对得分为85.1%。当对Science QA进行微调时,LLaVA和GPT-4的协同作用达到了92.53%的最先进精度。我们公开GPT-4生成的可视化指令调优数据、我们的模型和代码。

 

1 Introduction

  人类通过视觉和语言等多种渠道与世界互动,因为每个渠道在表达和交流某些概念方面都具有独特的优势,从而有助于更好地理解世界。人工智能的核心愿望之一是开发一种通用助手,它可以有效地遵循多模态视觉和语言指令,与人类在野外完成各种现实世界任务的意图相一致[4,26]。

  为此,社区对开发语言增强基础视觉模型[26,16]产生了新的兴趣,该模型在开放世界视觉理解方面具有强大的能力,如分类[39,21,56,53,38]、检测[28,61,32]、分割[25,62,57]和文字说明[49,27],以及视觉生成和编辑[41,42,55,15,43,29]。我们向读者推荐《计算机视觉在野外》阅读列表,以获取最新的文献汇编[12]。在这项工作中,每个任务都由一个大型视觉模型独立解决,在模型设计中隐含地考虑了任务指令。此外,语言仅用于描述图像内容。虽然这使语言能够在将视觉信号映射到语言语义(人类交流的常见渠道)方面发挥重要作用,但它导致模型通常具有固定的界面,交互性和对用户指令的适应性有限。

  另一方面,大型语言模型(LLM)表明,语言可以发挥更广泛的作用:通用助理的通用接口,在该接口中,各种任务指令可以用语言明确表示,并引导端到端训练的神经助理切换到感兴趣的任务来解决它。例如,最近ChatGPT[34]和GPT-4[35]的成功证明了对齐LLM在遵循人类指令方面的强大作用,并激发了开发开源LLM的巨大兴趣。其中,LLaMA[48]是一种与GPT-3性能相匹配的开源LLM。羊驼[47]、维库纳[9]、GPT-4-LLM[37]利用各种机器生成的高质量指令跟随样本来提高LLM的对齐能力,与专有LLM相比,报告了令人印象深刻的性能。重要的是,这一行仅为文本。

  在本文中,我们提出了视觉教学调优,这是首次尝试将教学调优扩展到语言图像多模式空间,为构建通用的视觉助手铺平道路。特别是,我们的论文做出了以下贡献:

  1. 多模式指令遵循数据。一个关键的挑战是缺乏视觉语言教学遵循数据。我们使用ChatGPT/GPT-4提供了一种数据改革视角和管道,将图像-文本对转换为适当的指令-遵循格式。
  2. 大型多模式模型。我们开发了一个大型多模式模型(LMM),通过连接CLIP[39]的开集视觉编码器和语言解码器Vicuna[9],并对我们生成的教学视觉语言数据进行端到端微调。我们的实证研究验证了使用生成的数据进行LMM指令调整的有效性,并为构建遵循视觉代理的通用指令提供了实用提示。当与GPT-4集成时,我们的方法在Science QA[33]多模式推理数据集上实现了SoTA。
  3. 遵循基准的多模式教学。我们为LLaVA Bench提供了两个具有挑战性的基准,包括各种配对图像、说明和详细注释。
  4. 开源。我们向公众发布了以下资产:生成的多模式指令数据、代码库、模型检查点和可视化聊天演示。

 

2 Related Work

 

3 GPT-assisted Visual Instruction Data Generation

 

 

4 Visual Instruction Tuning

4.1 Architecture

 

4.2 Training

 

 

5 Experiments

 

5.1 Multimodal Chatbot

 

 

5.2 ScienceQA

 

6 Conclusion

标签:Tuning,模型,Instruction,Visual,指令,LLM,GPT,视觉,语言
From: https://www.cnblogs.com/lucifer1997/p/18206769

相关文章

  • currentTuningFileInfoRef.current = useMemo(() => { return tuningFileOptionsMemo?
    在React中,useMemo和useEffect都是Hooks,但它们各自有不同的用途和适用场景。上述代码片段使用了useMemo来memoize(记忆化)一个计算结果,确保只要依赖项(tuningFileOptionsMemo和currentTuningFileId)不变,返回的引用也不会改变。这样做可以避免在每次渲染时都进行查找操作,从而提......
  • Visual Studio(VS)常用快捷键整理
    ​ 前言在使用VisualStudio编写代码时,使用快捷键能够提高编码效率,作为程序员,我们有必要记住一些比较常用的快捷键。这篇文章将记录我自己比较常用的快捷键,并根据我的使用情况,更新常用快捷键,以便更快更高效地编写代码,建议收藏到浏览器文件夹,并通过Ctrl+F,输入关键字快速定位到需......
  • Visual Studio 2015 编写 CUDA 关键字高亮并自动补全_cuda vs 波浪线
    CSDN搬家失败,手动导出markdown后再导入博客园第一步,是在vs2015里面设置vc++文件支持.cu;cuh;文件。方法:工具->选项->文本编辑器->文件扩展名。得到如图所示的界面:注意,在右侧可以添加vc++类型的文件扩展名,这是我的设置效果,操作就不用细说了。![[output/attachme......
  • Microsoft Visual Stdio 2022的初学者使用方法
    1.点击创建新项目2.创建一个向导3.点击桌面向导,建一个控制台应用程序4.点击视图里面的解决方案资源管理器ect5.成功建立 ......
  • SimCLR: 一种视觉表征对比学习的简单框架《A Simple Framework for Contrastive Learn
    现在是2024年5月18日,好久没好好地看论文了,最近在学在写代码+各种乱七八糟的事情,感觉要和学术前沿脱轨了(虽然本身也没在轨道上,太菜了),今天把师兄推荐的一个框架的论文看看(视觉CV领域的)。20:31,正经的把这篇论文看完。论文:ASimpleFrameworkforContrastiveLearningofVisua......
  • 关于“error: Microsoft Visual C++ 14.0 is required. Get it with "Build Tools for
    安装库之前一定要注意python版本,今天鬼迷日眼的装一堆堆库,一个回车冒出来这个鬼问题。百度无果后灵光乍现,只安装报错时对应的库:condainstallnumpy==1.20.1结果在输出里找出这一段:Specifications:-numpy==1.20.1->python[version='>=3.7,<3.8.0a0|>=3.8,<3.9.0a0|>=......
  • visual studio installer“无法下载安装,请检查网络连接”问题的解决方法
       打开“网络适配器”打开“属性”选择“Internet协议版本4(TCP/IPv4)”选择“属性”双击进入选择“使用下面的DNS服务器地址(E)”首选DNS服务器填写:114.114.114.114备用DNS服务器填写:8.8.8.8   ......
  • CodeGeeX 智能编程助手 6 项功能升级,在Visual Studio插件市场霸榜2周!
    CodeGeeX是支持适配VisualStudio2019的唯一一款国产智能辅助编程工具,已经在VisualStudio趋势上霸榜2周!CodeGeeXv1.0.4版本上线VisualStudio插件市场,带来了多项新功能和性能优化,提升编程体验。新功能亮点速览:一、侧边栏工具箱功能v1.0.4版本中,CodeGeeX新增了侧边栏工具箱......
  • Visual Studio中的四款代码格式化工具
    前言今天大姚给大家分享四款VisualStudio中的代码格式化工具、扩展插件。大家可以在VisualStudio中的管理扩展或者插件市场下载安装。代码格式化工具的作用自动调整代码的布局和风格,以确保代码具有统一的格式,提高可读性并减少潜在的错误。VisualStudio中的管理扩展插件市......
  • Visual Components 3D工厂仿真与物流规划解决方案
    VisualComponents是新一代的数字化工业仿真软件,涵盖3D工艺仿真、装配仿真、人机协作、物流仿真、机器人仿真、虚拟调试、数字孪生工厂等功能于一体的数字化工业仿真平台。 在智能制造的发展过程中,3D仿真技术已经成为推动产业升级、优化生产流程的重要工具。VisualComponents......