Visual Instruction Tuning （LLaVA）

时间：2024-06-30 21:31:40浏览次数：21

标签：模态 Tuning Instruction 跟随 Visual LLaVA 指令

论文链接：https://proceedings.neurips.cc/paper_files/paper/2023/file/6dcf277ea32ce3288914faf369fe6de0-Paper-Conference.pdf
代码链接：
https://github.com/haotian-liu/LLaVA?tab=readme-ov-file

动机

指令微调(Instruction Tuning)语言大模型(LLMs)使用机器生成的指令跟随数据(instruction-following data)，提高了新任务上的zero-shot能力，但这个idea还没有在多模态领域进行探索。因此，本文第一次尝试使用language-only GPT-4 生成多模态语言-图像指令跟随数据。
通过在这种生成的数据上进行指令微调，本文提出大语言和视觉助理(Large Language and Vision Assistant, LLaVA)，这是一种端到端训练的大型多模态模型，连接了一个视觉编码器和一个LLM，来实现多用途的(general-purpose)视觉和语言理解。
为了促进未来在视觉指令跟随的研究，本文构建了两个评估benchmarks，包含diverse和challenging的应用导向(application-oriented)的任务。

贡献

多模态指令跟随数据
大型多模态模型
多模态指令跟随benchmark
开源

相关工作

多模态指令跟随代理(Multimodal Instruction-following Agents)

标签：模态,Tuning,Instruction,跟随,Visual,LLaVA,指令
From： https://www.cnblogs.com/mumuzeze/p/18276987

伪装目标检测论文阅读 VSCode:General Visual Salient and Camouflaged Object Detect
论文link：link代码：code1.摘要显著物体检测和伪装物体检测是相关但又不同的二元映射任务，这些任务涉及多种模态，具有共同点和独特线索，现有研究通常采用复杂的特定于任务的专家模型，可能会导致冗余和次优结果。我们引入了VSCode，这是一种具有新颖的2D提示学习的通用模型，用于......
【译】VisualStudio.Extensibility 17.10：用 Diagnostics Explorer 调试您的扩展
想象一下，创建的扩展比以往任何时候都运行得更快、更流畅！如果您最近还没有跟上，我们一直在努力改进VisualStudio.ExtensibilitySDK。VisualStudio.Extensibility帮助您构建在主IDE进程之外运行的扩展，以提高性能和可靠性。它还提供了一个时尚而直观的基于.NET8的API......
【雷丰阳-谷粒商城】【分布式高级篇-微服务架构篇】【13】压力压测JMeter-性能监控jv
持续学习&持续更新中…守破离【雷丰阳-谷粒商城】【分布式高级篇-微服务架构篇】【13】压力压测JMeter-性能监控jvisualvm压力测试概述性能指标JMeter基本使用添加线程组添加HTTP请求添加监听器启动压测&查看分析结果JMeterAddressAlreadyinuse错误解决性......
WPF 视觉状态VisualState使用
VisualState基本使用首先搭建一个自定义控件，继承自ContentControl，自动生成了这些文件由于CustomButton在Custom命名空间中，所以改一下xaml中的引用xmlns:local="clr-namespace:WpfApp1.Custom"定义部件和视觉状态TemplatePart是模板中的部件名TemplateVisualState是模板中......
Enhancing CLIP with GPT-4: Harnessing Visual Descriptions as Prompts
标题：用GPT-4增强CLIP:利用视觉描述作为提示源文链接：Maniparambil_Enhancing_CLIP_with_GPT-4_Harnessing_Visual_Descriptions_as_Prompts_ICCVW_2023_paper.pdf(thecvf.com)https://openaccess.thecvf.com/content/ICCV2023W/MMFM/papers/Maniparambil_Enhancing_CLIP_with......
通义灵码上线 Visual Studio 插件市场啦！
通义灵码，是阿里云出品的一款基于通义大模型的智能编码辅助工具，提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成、代码解释、研发智能问答、异常报错排查等能力，提供代码智能生成、研发智能问答能力。通义灵码熟练掌握Java、Python、Go、C++等20......
通义灵码上线 Visual Studio 插件市场啦！
通义灵码，是阿里云出品的一款基于通义大模型的智能编码辅助工具，提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成、代码解释、研发智能问答、异常报错排查等能力，提供代码智能生成、研发智能问答能力。通义灵码熟练掌握Java、Python、Go、C++等20......
Docker + Visual Studio Code IDE实现PHP Xdebug调试
目录一、前期准备二、配置文件1.VisualStudioCodeIDE配置2、配置docker中php的xdebug.ini三、开始调试参考文档一、前期准备1、安装VSCode软件；2、在VSCode中安装PHPDebug插件；3、安装好Docker4、在容器中php中安装安装Xdebug扩展根据这个链接操作即可：X......
在 Visual Studio 2022 (Visual C++ 17) 中使用 Visual Leak Detector
1问题描述1.1内存泄漏的困扰和解决之道在C/C++程序开发过程中，开发者受益于C/C++的强大，与此同时也承受着C/C++程序开发的额外风险。像Java、C#这类带GC（内存垃圾回收）的编程语言，在内存管理方面，给开发者提供了“保姆级”的封装，开发者不用太关注内存泄漏问题[1]。但是C/C++的哲学......
Visual Studio 2022 Typescript 代码错误提示故障问题
近日编码过程中发现，项目中所有.ts、.tsx文件中的代码修改过后仍有错误提示，甚至注释掉代码后错误提示仍在原位。症状如下：VS内置Typescript语法检查和eslint支持，两个语法检查服务可同时运行，并同时发送错误提示和改进建议。eslint正常运行，无故障。选项中禁用后重启VS2022，eslint不......

Visual Instruction Tuning （LLaVA）

动机

贡献

相关工作

多模态指令跟随代理(Multimodal Instruction-following Agents)

相关文章

赞助商

阅读排行