• 2024-06-30Visual Instruction Tuning (LLaVA)
    论文链接:https://proceedings.neurips.cc/paper_files/paper/2023/file/6dcf277ea32ce3288914faf369fe6de0-Paper-Conference.pdf代码链接:https://github.com/haotian-liu/LLaVA?tab=readme-ov-file动机指令微调(InstructionTuning)语言大模型(LLMs)使用机器生成的指令跟
  • 2024-06-17XTuner 微调 LLM:1.8B、多模态、Agent
    InternLM2实战营第二期第四节课《XTuner微调LLM:1.8B、多模态、Agent》官网地址:书生·浦语官网课程录播视频链接地址:XTuner微调LLM:1.8B、多模态、Agent_bilibiliXtuner地址:Xtunertips:建议这节课大家仔细听,可以让你快速了解大模型预训练的一些概念和模型内部实际
  • 2024-06-04【LLaVA系列】CLIP/LLaVA/LLaVA1.5/VILA 模型全面梳理!
    节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学。针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。合集:持续火爆!!!《AIGC面试宝典》已圈粉无
  • 2024-05-28Fine-tuning in LLaVA:多模态的指令调优
    1Prerequisites1.1TrainingMethods训练方法通常分为三种:提示工程、微调和预训练。1.1.1PromptEngineering不需要重新训练模型,节省成本。1.1.2Fine-tuning微调和预训练的代码基本相同,但是计算量相对小很多。1.1.3Pre-training大规模数据集上训练,得到的是一个未加调
  • 2024-05-12多模态大模型 LLaVA 微调教程-大语言模型8
    写完之后发现他好像不是很需要这个东西,所以就先发在自己的博客好了。不投稿首页或者候选区应该本来也就不会有多少流量,所以应该不会干嘛的,大不了后面被说不让放网上以后就删掉这篇,嘻嘻。LLaVA是最早出现的VisionLanguageModel。本教程将教你微调llava-v1.5-13b。与本博客
  • 2024-04-27多模态大模型
    想了很久,最后还是写了这篇。LLaVA贡献多模态指令数据。当下关键的挑战之一是缺乏视觉与语言组成的指令数据。本文提出了一个数据重组方式,使用ChatGPT/GPT-4将图像-文本对转换为适当的指令格式;大型多模态模型。研究者通过连接CLIP的开源视觉编码器和语言解码器LLaMA,开
  • 2024-03-21【视觉语言大模型+LLaVA1.0】大语言模型视觉助手(视觉指令调优)GPT4-Vision丐版
    官方资源汇总:项目主页||https://huggingface.co/liuhaotian23.04.LLaVA1.论文:LargeLanguageandVisionAssistant(VisualInstructionTuning)23.10LLaVA-1.5论文:ImprovedBaselineswithVisualInstructionTuning23.11LLaVA-Plus项目:LLaVA-Plus:LargeLang
  • 2024-03-21【大语言视觉助手+LLaVA1.5】23.10.LLaVA-1.5改善后视觉语言大模型: Improved Baselines with Visual Instruction Tuning
    LLaVa家族官方资源汇总:项目主页||https://huggingface.co/liuhaotian23.04.LLaVA1.0论文:LargeLanguageandVisionAssistant(VisualInstructionTuning)23.06LLaVA-Med(医学图片视觉助手):TrainingaLargeLanguage-and-VisionAssistantforBiomedicineinOne
  • 2024-02-07MoE-LLaVA:具有高效缩放和多模态专业知识的大型视觉语言模型
    视觉和语言模型的交叉导致了人工智能的变革性进步,使应用程序能够以类似于人类感知的方式理解和解释世界。大型视觉语言模型(LVLMs)在图像识别、视觉问题回答和多模态交互方面提供了无与伦比的能力。MoE-LLaVA利用了“专家混合”策略融合视觉和语言数据,实现对多媒体内容的复杂理解
  • 2023-12-29LLaVA-v1.5-7B:实现先进多模态学习的开源AI
    引言LLaVA-v1.5-7B是一个开源大型多模态模型(LMM),它通过结合视觉指令调整(VisualInstructionTuning)技术,展示了在多模态理解和生成任务上的卓越性能。该模型特别注重简洁性和数据效率,利用CLIP-ViT-L-336px与多层感知器(MLP)投影以及包含学术任务导向的视觉问答(VQA)数据,来建立更强的基准
  • 2023-12-081文件+2个命令,无需安装,单机离线运行70亿大模型
    1文件+2个命令,无需安装,单机离线运行70亿大模型大家好,我是老章最近苹果发布了自己的深度学习框架--MLX,专门为自家M系列芯片优化。看了展示视频,这个框架还能直接运行Llama7B的大模型,在M2Ultral上运行流畅。但是我尝试了一下,我的M2Macmini根本跑不动,模型权重太大了。这倒勾起
  • 2023-11-30北京大学 | Video-LLaVA视觉语言大模型:统一输入,同时处理图片和视频数据
    前言 北京大学和其他机构的研究人员近期提出了一种名为Video-LLaVA的视觉语言大模型。该模型的创新之处在于能够同时处理图片和视频作为输入。在处理图片的任务中,该模型展现出了出色的性能,在多个评估榜单中名列前茅,尤其在视频方面取得了令人瞩目的成绩。这项研究的关键点在于关注
  • 2023-10-18大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求
    大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求一个面向多模式GPT-4级别能力构建的助手。它结合了自然语言处理和计算机视觉,为用户提供了强大的多模式交互和理解。LLaVA旨在更深入地理解和处理语言和视觉信息,从而实现更复杂的任务和对话。这个项目代表了下一
  • 2023-07-09LLaMA模型指令微调 字节跳动多模态视频大模型 Valley 论文详解
    Valley:VideoAssistantwithLargeLanguagemodelEnhancedabilitY大家好,我是卷了又没卷,薛定谔的卷的AI算法工程师「陈城南」~担任某大厂的算法工程师,带来最新的前沿AI知识和工具,包括AI相关技术、ChatGPT、AI绘图等,欢迎大家交流~。近期基于LLaMA微调的模型有很多,Alpaca,Vi
  • 2023-06-26多模态大语言模型 LlaVA 论文解读:Visual Instruction Tuning
    代码:https://github.com/haotian-liu/LLaVA总览在这篇论文中,作者首次尝试使用纯语言GPT-4生成多模态语言图像指令遵循数据(insruction-followingdata)。通过对此类生成数据进行指令调整,推出了大型语言和视觉助手(LargeLanguageandVisionAssistant,LLaVA)。一种端到端训练的大型
  • 2023-05-24LLaVA 从零复现 第一天
    1.准备数据1.1预训练数据目前看来数据部分是两类数据,一类是预训练数据需要下载对应的图像这部分数据是过滤版的CC-3M,上面图片量是59w,是300w图像的过滤版本结构{"id":"GCC_train_002582585","image":"GCC_train_002582585.jpg","caption":"oli