摘要
我们介绍了 MM1.5,一个新的多模态大型语言模型 (MLLM) 家族,旨在增强在富文本图像理解、视觉参照和定位以及多图像推理方面的能力。 在 MM1 架构的基础上,MM1.5 采用以数据为中心的模型训练方法,系统地探索了整个模型训练生命周期中各种数据混合的影响。 这包括用于持续预训练的高质量 OCR 数据和合成字幕,以及用于监督微调的优化视觉指令调优数据混合。 我们的模型参数范围从 10 亿到 300 亿,涵盖密集型和专家混合 (MoE) 变体,并证明即使在较小规模(10 亿和 30 亿)下,仔细的数据整理和训练策略也能产生强大的性能。 此外,我们还介绍了两种专门的变体:MM1.5-Video,专为视频理解而设计,以及 MM1.5-UI,专为移动 UI 理解而设计。 通过广泛的经验研究和消融实验,我们提供了关于训练过程和决策的详细见解,这些见解为我们最终的设计提供了依据,并为 MLLM 开发的未来研究提供了宝贵的指导。
1引言
近年来,多模态大型语言模型 (MLLM) 已成为一个越来越活跃的研究课题。 闭源模型,如 GPT-4o [51]、GPT-4V [125]、Gemini-1.5 [149, 130] 和 Claude-3.5 [5],在高级多模态理解方面表现出非凡的能力。 同时,开源模型,如 LLaVA 系列工作 [102, 100, 101, 74]、InternVL2 [21]、Cambrian-1 [151] 和 Qwen2-VL [9, 150],正在迅速缩小性能差距。 越来越多的兴趣在于开发能够使用一组模型权重来理解单图像、多图像和视频数据的模型 [74]。
图 1: 模型架构概述。 MM1.5 擅长于 (
标签:模态,Apple,训练,模型,图像,MM1.5,文本,数据 From: https://blog.csdn.net/2403_88079100/article/details/142997010