LLaVA

2024-06-30Visual Instruction Tuning （LLaVA）
论文链接：https://proceedings.neurips.cc/paper_files/paper/2023/file/6dcf277ea32ce3288914faf369fe6de0-Paper-Conference.pdf代码链接：https://github.com/haotian-liu/LLaVA?tab=readme-ov-file动机指令微调(InstructionTuning)语言大模型(LLMs)使用机器生成的指令跟
2024-06-17XTuner 微调 LLM:1.8B、多模态、Agent
InternLM2实战营第二期第四节课《XTuner微调LLM:1.8B、多模态、Agent》官网地址：书生·浦语官网课程录播视频链接地址：XTuner微调LLM:1.8B、多模态、Agent_bilibiliXtuner地址：Xtunertips：建议这节课大家仔细听，可以让你快速了解大模型预训练的一些概念和模型内部实际
2024-06-04【LLaVA系列】CLIP/LLaVA/LLaVA1.5/VILA 模型全面梳理！
节前，我们星球组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、参加社招和校招面试的同学。针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。合集：持续火爆！！！《AIGC面试宝典》已圈粉无
2024-05-28Fine-tuning in LLaVA：多模态的指令调优
1Prerequisites1.1TrainingMethods训练方法通常分为三种：提示工程、微调和预训练。1.1.1PromptEngineering不需要重新训练模型，节省成本。1.1.2Fine-tuning微调和预训练的代码基本相同，但是计算量相对小很多。1.1.3Pre-training大规模数据集上训练，得到的是一个未加调
2024-05-12多模态大模型 LLaVA 微调教程-大语言模型8
写完之后发现他好像不是很需要这个东西，所以就先发在自己的博客好了。不投稿首页或者候选区应该本来也就不会有多少流量，所以应该不会干嘛的，大不了后面被说不让放网上以后就删掉这篇，嘻嘻。LLaVA是最早出现的VisionLanguageModel。本教程将教你微调llava-v1.5-13b。与本博客
2024-04-27多模态大模型
想了很久，最后还是写了这篇。LLaVA贡献多模态指令数据。当下关键的挑战之一是缺乏视觉与语言组成的指令数据。本文提出了一个数据重组方式，使用ChatGPT/GPT-4将图像-文本对转换为适当的指令格式；大型多模态模型。研究者通过连接CLIP的开源视觉编码器和语言解码器LLaMA，开
2024-03-21【视觉语言大模型+LLaVA1.0】大语言模型视觉助手（视觉指令调优）GPT4-Vision丐版
官方资源汇总：项目主页||https://huggingface.co/liuhaotian23.04.LLaVA1.论文:LargeLanguageandVisionAssistant（VisualInstructionTuning)23.10LLaVA-1.5论文:ImprovedBaselineswithVisualInstructionTuning23.11LLaVA-Plus项目：LLaVA-Plus:LargeLang
2024-03-21【大语言视觉助手+LLaVA1.5】23.10.LLaVA-1.5改善后视觉语言大模型: Improved Baselines with Visual Instruction Tuning
LLaVa家族官方资源汇总：项目主页||https://huggingface.co/liuhaotian23.04.LLaVA1.0论文:LargeLanguageandVisionAssistant（VisualInstructionTuning)23.06LLaVA-Med（医学图片视觉助手）:TrainingaLargeLanguage-and-VisionAssistantforBiomedicineinOne
2024-02-07MoE-LLaVA:具有高效缩放和多模态专业知识的大型视觉语言模型
视觉和语言模型的交叉导致了人工智能的变革性进步，使应用程序能够以类似于人类感知的方式理解和解释世界。大型视觉语言模型(LVLMs)在图像识别、视觉问题回答和多模态交互方面提供了无与伦比的能力。MoE-LLaVA利用了“专家混合”策略融合视觉和语言数据，实现对多媒体内容的复杂理解
2023-12-29LLaVA-v1.5-7B：实现先进多模态学习的开源AI
引言LLaVA-v1.5-7B是一个开源大型多模态模型（LMM），它通过结合视觉指令调整（VisualInstructionTuning）技术，展示了在多模态理解和生成任务上的卓越性能。该模型特别注重简洁性和数据效率，利用CLIP-ViT-L-336px与多层感知器（MLP）投影以及包含学术任务导向的视觉问答（VQA）数据，来建立更强的基准
2023-12-081文件+2个命令，无需安装，单机离线运行70亿大模型
1文件+2个命令，无需安装，单机离线运行70亿大模型大家好，我是老章最近苹果发布了自己的深度学习框架--MLX，专门为自家M系列芯片优化。看了展示视频，这个框架还能直接运行Llama7B的大模型，在M2Ultral上运行流畅。但是我尝试了一下，我的M2Macmini根本跑不动，模型权重太大了。这倒勾起
2023-11-30北京大学 | Video-LLaVA视觉语言大模型：统一输入，同时处理图片和视频数据
前言北京大学和其他机构的研究人员近期提出了一种名为Video-LLaVA的视觉语言大模型。该模型的创新之处在于能够同时处理图片和视频作为输入。在处理图片的任务中，该模型展现出了出色的性能，在多个评估榜单中名列前茅，尤其在视频方面取得了令人瞩目的成绩。这项研究的关键点在于关注
2023-10-18大规模语言LLaVA：多模态GPT-4智能助手，融合语言与视觉，满足用户复杂需求
大规模语言LLaVA：多模态GPT-4智能助手，融合语言与视觉，满足用户复杂需求一个面向多模式GPT-4级别能力构建的助手。它结合了自然语言处理和计算机视觉，为用户提供了强大的多模式交互和理解。LLaVA旨在更深入地理解和处理语言和视觉信息，从而实现更复杂的任务和对话。这个项目代表了下一
2023-07-09LLaMA模型指令微调字节跳动多模态视频大模型 Valley 论文详解
Valley:VideoAssistantwithLargeLanguagemodelEnhancedabilitY大家好，我是卷了又没卷，薛定谔的卷的AI算法工程师「陈城南」~担任某大厂的算法工程师，带来最新的前沿AI知识和工具，包括AI相关技术、ChatGPT、AI绘图等，欢迎大家交流~。近期基于LLaMA微调的模型有很多，Alpaca，Vi
2023-06-26多模态大语言模型 LlaVA 论文解读：Visual Instruction Tuning
代码：https://github.com/haotian-liu/LLaVA总览在这篇论文中，作者首次尝试使用纯语言GPT-4生成多模态语言图像指令遵循数据（insruction-followingdata）。通过对此类生成数据进行指令调整，推出了大型语言和视觉助手（LargeLanguageandVisionAssistant，LLaVA）。一种端到端训练的大型
2023-05-24LLaVA 从零复现第一天
1.准备数据1.1预训练数据目前看来数据部分是两类数据，一类是预训练数据需要下载对应的图像这部分数据是过滤版的CC-3M，上面图片量是59w，是300w图像的过滤版本结构{"id":"GCC_train_002582585","image":"GCC_train_002582585.jpg","caption":"oli