论文:https://arxiv.org/abs/2312.14238
代码:https://github.com/OpenGVLab/InternVL
背景
在LLM时代,视觉基础模型通常通过一些轻量级的“粘合”层(如QFormer 或线性投影)与LLMs连接。然而,这些模型主要源自 ImageNet 或 JFT 等纯视觉数据集,或使用图像文本对与BERT系列对齐,缺乏与LLMs的直接对齐。
这种对齐存在的局限性:
ÿ
标签:Foundation,Tasks,1.0,LLMs,模型,https,视觉,对齐,InternVL From: https://blog.csdn.net/lilai619/article/details/143199898