一、概述
1、是什么
是一系列多模态大型语言模型(MLLM),其中包括2B、7B、72B三个版本,整体采用视觉编码器(标准VIT输出后面接patch merger )+ LLM形式。比较创新的是统一视觉处理方式(3D CNN统一视频、图片)+图像缩放方式(自适应缩放)+3D LLM位置编码。能够处理包括文本、图像在内的多种数据类型,具备图片描述、单图文问答、 多图问对话、视频理解对话 、json格式、多语言、agent、高清图理解(代码编写和debug论文暂时未提)。Qwen2-VL-2B可以轻松地在现代手机上本地进行推理。和qwen vl一样采用三阶段训练。
2、亮点
*大尺寸图:读懂不同分辨率和不同长宽比的图片,在DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现;在多种多模态场景中与GPT-4o和Claude3.5-Sonnet等顶级模型相匹配,超越了所有其他开放权重LVLM模型。
*视频理解:引入多模态旋转位置嵌入(M-RoPE),理解20分钟以上长视频,支持基于视频的问答、对话和
标签:模态,视频,VLM,缩放,Qwen2,VL,理解,2B,3D From: https://blog.csdn.net/u012863603/article/details/142659314