首页 > 其他分享 >Apple提出MM1.5:多模态大型语言模型微调的方法、分析和见解

Apple提出MM1.5:多模态大型语言模型微调的方法、分析和见解

时间:2024-10-19 11:17:57浏览次数:3  
标签:模态 Apple 训练 模型 图像 MM1.5 文本 数据

摘要

我们介绍了 MM1.5,一个新的多模态大型语言模型 (MLLM) 家族,旨在增强在富文本图像理解、视觉参照和定位以及多图像推理方面的能力。 在 MM1 架构的基础上,MM1.5 采用以数据为中心的模型训练方法,系统地探索了整个模型训练生命周期中各种数据混合的影响。 这包括用于持续预训练的高质量 OCR 数据和合成字幕,以及用于监督微调的优化视觉指令调优数据混合。 我们的模型参数范围从 10 亿到 300 亿,涵盖密集型和专家混合 (MoE) 变体,并证明即使在较小规模(10 亿和 30 亿)下,仔细的数据整理和训练策略也能产生强大的性能。 此外,我们还介绍了两种专门的变体:MM1.5-Video,专为视频理解而设计,以及 MM1.5-UI,专为移动 UI 理解而设计。 通过广泛的经验研究和消融实验,我们提供了关于训练过程和决策的详细见解,这些见解为我们最终的设计提供了依据,并为 MLLM 开发的未来研究提供了宝贵的指导。

1引言

近年来,多模态大型语言模型 (MLLM) 已成为一个越来越活跃的研究课题。 闭源模型,如 GPT-4o [51]、GPT-4V [125]、Gemini-1.5 [149, 130] 和 Claude-3.5 [5],在高级多模态理解方面表现出非凡的能力。 同时,开源模型,如 LLaVA 系列工作 [102, 100, 101, 74]、InternVL2 [21]、Cambrian-1 [151] 和 Qwen2-VL [9, 150],正在迅速缩小性能差距。 越来越多的兴趣在于开发能够使用一组模型权重来理解单图像、多图像和视频数据的模型 [74]。

图 1: 模型架构概述。 MM1.5 擅长于 (

标签:模态,Apple,训练,模型,图像,MM1.5,文本,数据
From: https://blog.csdn.net/2403_88079100/article/details/142997010

相关文章

  • Unity Apple Vision Pro 保姆级开发教程-环境配置、导入 PolySpatial 案例、程序发布
    视频教程Unity环境配置、导入PolySpatial案例、程序发布到设备教程说明这期教程我将介绍使用Unity开发AppleVisionPro应用所需要的Unity环境配置,以及如何导入PolySpatial样例场景、将Unity程序打包到头显中运行。开发前期准备(软硬件要求,开启visionpro......
  • Unity Apple Vision Pro 保姆级开发教程-准备阶段
    视频教程:UnityPolySpatial开发AppleVisionPro教程,三十分钟快速了解开发AppleVisionPro使用原生开发和unity开发有什么区别如果你的项目需要充分利用AppleVisionPro的独特功能、追求最佳的性能表现,或者针对特定于VisionOS的开发场景,原生开发可能是更好的......
  • 基于OpenFOAM和Python的流场动态模态分解:从数据提取到POD-DMD分析
    本文探讨了Python脚本与动态模态分解(DMD)的结合应用。我们将利用Python对从OpenFOAM模拟中提取的二维切片数据进行DMD计算。这种方法能够有效地提取隐藏的流动模式,深化对流体动力学现象的理解。使用开源CFD软件OpenFOAM,有两种方法可以对CFD数据进行DMD计算。第一种方法是直接......
  • 前沿多模态论文 EI-CLIP 解读
    系列文章目录文章目录系列文章目录一、P(Y∣X......
  • 2025秋招LLM大模型多模态面试题(十一)-- 大模型评测方法与工具
    目录引言大模型评测方法综述1.自动评测与人工评测2.大模型的Honest原则如何衡量大模型的水平1.任务分类......
  • 和TEN、CosyVoice、Rokid一起「组装」你的专属多模态 Agent!丨RTE2024 AI 工坊报名
       2024年10月25日~26日,由声网和RTE开发者社区联合主办的RTE2024第十届实时互联网大会将在北京·悠唐皇冠假日酒店正式开启! 大会以「AI爱」为主题,推出覆盖实时互联网全生态的论坛及周边活动共计20余场。 这次RTE开发者社区为大家准备了一场RTE2024......
  • InternVid:用于多模态视频理解与生成的大规模视频-文本数据集 | ICLR Spotlight
    InternVid 是一个开源的大规模视频-文本数据集,旨在促进视频理解和生成任务的发展,由上海人工智能实验室与南京大学、中国科学院等单位联合发布,相关的工作已经被ICLR2024接收。它包含超过700万个视频,总时长近76万小时,并附带详细的文本描述。InternVid的发布将推动文本-视频......
  • 挑选苹果(apple)
    题目描述小可手里有个苹果,n大小为a1,a2……an。小可希望留给爸爸妈妈最大的k个苹果,剩下的自己吃掉。请问,小可自己吃掉的苹果的大小总和是多少?输入描述第一行两个正整数,代表苹果个数和希望留给爸爸妈妈的苹果个数。第二行n个正整数,代表苹果的大小。输出描述输出一个正......
  • 多模态论文串讲-学习笔记(下)
    入门参考:跟着chatgpt一起学|多模态入门-CSDN博客学习笔记(上):多模态论文串讲-学习笔记(上)-CSDN博客学习参考:多模态论文串讲·下【论文精读·49】_哔哩哔哩_bilibili学习笔记上介绍只使用transformer encoder的方法,本文来介绍下同时使用transformerencoder和decoder的方法。......
  • 掌握未来:2025年秋招LLM及多模态模型面试精华
    目录大模型常用微调方法LoRA和Ptuning的原理介绍StableDiffusion的原理为何现在的大模型大部分是Decoder-only结构如何缓解LLMs复读机问题为什么Transformer块使用LayerNorm而不是BatchNormTransformer为何使用多头注意力机制监督微调SFT后LLM表现下降的原因微调阶段样本......