首页 > 其他分享 >Visual Instruction Tuning (LLaVA)

Visual Instruction Tuning (LLaVA)

时间:2024-06-30 21:31:40浏览次数:21  
标签:模态 Tuning Instruction 跟随 Visual LLaVA 指令

论文链接:https://proceedings.neurips.cc/paper_files/paper/2023/file/6dcf277ea32ce3288914faf369fe6de0-Paper-Conference.pdf
代码链接:
https://github.com/haotian-liu/LLaVA?tab=readme-ov-file


动机

指令微调(Instruction Tuning)语言大模型(LLMs)使用机器生成的指令跟随数据(instruction-following data),提高了新任务上的zero-shot能力,但这个idea还没有在多模态领域进行探索。因此,本文第一次尝试使用language-only GPT-4 生成多模态语言-图像指令跟随数据。
通过在这种生成的数据上进行指令微调,本文提出大语言和视觉助理(Large Language and Vision Assistant, LLaVA),这是一种端到端训练的大型多模态模型,连接了一个视觉编码器和一个LLM,来实现多用途的(general-purpose)视觉和语言理解。
为了促进未来在视觉指令跟随的研究,本文构建了两个评估benchmarks,包含diverse和challenging的应用导向(application-oriented)的任务。


贡献

  1. 多模态指令跟随数据
  2. 大型多模态模型
  3. 多模态指令跟随benchmark
  4. 开源

相关工作

多模态指令跟随代理(Multimodal Instruction-following Agents)

标签:模态,Tuning,Instruction,跟随,Visual,LLaVA,指令
From: https://www.cnblogs.com/mumuzeze/p/18276987

相关文章

  • 伪装目标检测论文阅读 VSCode:General Visual Salient and Camouflaged Object Detect
    论文link:link代码:code1.摘要  显著物体检测和伪装物体检测是相关但又不同的二元映射任务,这些任务涉及多种模态,具有共同点和独特线索,现有研究通常采用复杂的特定于任务的专家模型,可能会导致冗余和次优结果。我们引入了VSCode,这是一种具有新颖的2D提示学习的通用模型,用于......
  • 【译】VisualStudio.Extensibility 17.10:用 Diagnostics Explorer 调试您的扩展
    想象一下,创建的扩展比以往任何时候都运行得更快、更流畅!如果您最近还没有跟上,我们一直在努力改进VisualStudio.ExtensibilitySDK。VisualStudio.Extensibility帮助您构建在主IDE进程之外运行的扩展,以提高性能和可靠性。它还提供了一个时尚而直观的基于.NET8的API......
  • 【雷丰阳-谷粒商城 】【分布式高级篇-微服务架构篇】【13】压力压测JMeter-性能监控jv
    持续学习&持续更新中…守破离【雷丰阳-谷粒商城】【分布式高级篇-微服务架构篇】【13】压力压测JMeter-性能监控jvisualvm压力测试概述性能指标JMeter基本使用添加线程组添加HTTP请求添加监听器启动压测&查看分析结果JMeterAddressAlreadyinuse错误解决性......
  • WPF 视觉状态VisualState使用
    VisualState基本使用首先搭建一个自定义控件,继承自ContentControl,自动生成了这些文件由于CustomButton在Custom命名空间中,所以改一下xaml中的引用xmlns:local="clr-namespace:WpfApp1.Custom"定义部件和视觉状态TemplatePart是模板中的部件名TemplateVisualState是模板中......
  • Enhancing CLIP with GPT-4: Harnessing Visual Descriptions as Prompts
    标题:用GPT-4增强CLIP:利用视觉描述作为提示源文链接:Maniparambil_Enhancing_CLIP_with_GPT-4_Harnessing_Visual_Descriptions_as_Prompts_ICCVW_2023_paper.pdf(thecvf.com)https://openaccess.thecvf.com/content/ICCV2023W/MMFM/papers/Maniparambil_Enhancing_CLIP_with......
  • 通义灵码上线 Visual Studio 插件市场啦!
    通义灵码,是阿里云出品的一款基于通义大模型的智能编码辅助工具,提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成、代码解释、研发智能问答、异常报错排查等能力,提供代码智能生成、研发智能问答能力。通义灵码熟练掌握Java、Python、Go、C++等20......
  • 通义灵码上线 Visual Studio 插件市场啦!
    通义灵码,是阿里云出品的一款基于通义大模型的智能编码辅助工具,提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成、代码解释、研发智能问答、异常报错排查等能力,提供代码智能生成、研发智能问答能力。通义灵码熟练掌握Java、Python、Go、C++等20......
  • Docker + Visual Studio Code IDE实现PHP Xdebug调试
    目录一、前期准备二、配置文件1.VisualStudioCodeIDE配置2、配置docker中php的xdebug.ini三、开始调试参考文档一、前期准备1、安装VSCode软件;2、在VSCode中安装PHPDebug插件;3、安装好Docker4、在容器中php中安装安装Xdebug扩展根据这个链接操作即可:X......
  • 在 Visual Studio 2022 (Visual C++ 17) 中使用 Visual Leak Detector
    1问题描述1.1内存泄漏的困扰和解决之道在C/C++程序开发过程中,开发者受益于C/C++的强大,与此同时也承受着C/C++程序开发的额外风险。像Java、C#这类带GC(内存垃圾回收)的编程语言,在内存管理方面,给开发者提供了“保姆级”的封装,开发者不用太关注内存泄漏问题[1]。但是C/C++的哲学......
  • Visual Studio 2022 Typescript 代码错误提示故障问题
    近日编码过程中发现,项目中所有.ts、.tsx文件中的代码修改过后仍有错误提示,甚至注释掉代码后错误提示仍在原位。症状如下:VS内置Typescript语法检查和eslint支持,两个语法检查服务可同时运行,并同时发送错误提示和改进建议。eslint正常运行,无故障。选项中禁用后重启VS2022,eslint不......