CogVLM,这是一种新的视觉语言基础模型,由智谱AI和清华KEG联合开发。CogVLM在不牺牲任何NLP任务性能的情况下,实现了视觉语言特征的深度融合。CogVLM-17B模型在多模态权威学术榜单上取得了综合成绩第一的成绩,在14个数据集上取得了state-of-the-art或者第二名的成绩。
模型架构
CogVLM的核心思想是“视觉优先”,它在多模态模型中将视觉理解放在更优先的位置。该模型使用了5B参数的视觉编码器和6B参数的视觉专家模块,总共11B参数建模图像特征,这甚至多于文本的7B参数量。模型包含四个基本组件:
- ViT编码器:在CogVLM-17B中,采用预训练的EVA2-CLIP-E。
- MLP适配器:一个两层的MLP(SwiGLU),用于将ViT的输出映射到与词嵌入的文本特征相同的空间。
- 预训练大语言模型:与任何现有的GPT-style的预训练大语言模型兼容。CogVLM-17B采用Vicuna-7B-v1.5进行进一步训练。
- 视觉专家模块:在每层添加一个视觉专家模块,由一个QKV矩阵和一个MLP组成,以实现深度的视觉-语言特征对齐。
模型效果
CogVLM-17B在14个多模态基准上进行了定量评估,包括图像字幕(Image Captioning)、视觉问答(Visual QA)、视觉定位(Visual Grounding)。在这些基准中,CogVLM-17B在10项基准中取得SOTA性能,而在另外四项取得第二的成绩。整体性能超越或匹配谷歌的PaLI-X 55B。CogVLM在图像理解、模型幻觉以及文本识别方面表现出色。
应用场景
CogVLM适用于多种多模态场景,包括图像字幕、视觉问答和视觉定位等。它能够在复杂的视觉场景中准确识别和描述对象,适用于高级图像理解和语言处理任务。
结论
CogVLM与之前的VisualGLM相比,进行了较大尺度的改进,特别是在多模态融合技术上。CogVLM不仅有基于GLM的双语模型,还有基于Llama2系列的英文模型。此外,为了减少模型的幻觉现象,CogVLM通过特定的微调和更大的参数量,显著降低了幻觉出现的频次。
CogVLM是一种先进的多模态模型,它在多模态理解方面取得了显著的成绩,特别是在视觉和语言的深度融合上。这个模型为多模态基础模型领域的研究和工业应用提供了新的可能性。
参考资料
GitHub
https://github.com/THUDM/CogVLM
huggingface
https://huggingface.co/THUDM/CogVLM
AI快站国内模型下载
标签:模态,语言,AI,模型,17B,CogVLM,视觉,智谱 From: https://blog.51cto.com/u_16323307/8460559
https://aifasthub.com/models/THUDM