多模态大模型CogVLM：智谱AI的新篇章

时间：2023-11-18 11:32:49浏览次数：35

CogVLM，这是一种新的视觉语言基础模型，由智谱AI和清华KEG联合开发。CogVLM在不牺牲任何NLP任务性能的情况下，实现了视觉语言特征的深度融合。CogVLM-17B模型在多模态权威学术榜单上取得了综合成绩第一的成绩，在14个数据集上取得了state-of-the-art或者第二名的成绩。

多模态大模型CogVLM：智谱AI的新篇章_图像理解

模型架构

CogVLM的核心思想是“视觉优先”，它在多模态模型中将视觉理解放在更优先的位置。该模型使用了5B参数的视觉编码器和6B参数的视觉专家模块，总共11B参数建模图像特征，这甚至多于文本的7B参数量。模型包含四个基本组件：

ViT编码器：在CogVLM-17B中，采用预训练的EVA2-CLIP-E。
MLP适配器：一个两层的MLP（SwiGLU），用于将ViT的输出映射到与词嵌入的文本特征相同的空间。
预训练大语言模型：与任何现有的GPT-style的预训练大语言模型兼容。CogVLM-17B采用Vicuna-7B-v1.5进行进一步训练。
视觉专家模块：在每层添加一个视觉专家模块，由一个QKV矩阵和一个MLP组成，以实现深度的视觉-语言特征对齐。

多模态大模型CogVLM：智谱AI的新篇章_语言模型_02

模型效果

CogVLM-17B在14个多模态基准上进行了定量评估，包括图像字幕（Image Captioning）、视觉问答（Visual QA）、视觉定位（Visual Grounding）。在这些基准中，CogVLM-17B在10项基准中取得SOTA性能，而在另外四项取得第二的成绩。整体性能超越或匹配谷歌的PaLI-X 55B。CogVLM在图像理解、模型幻觉以及文本识别方面表现出色。

多模态大模型CogVLM：智谱AI的新篇章_图像理解_03

多模态大模型CogVLM：智谱AI的新篇章_语言模型_04

应用场景

CogVLM适用于多种多模态场景，包括图像字幕、视觉问答和视觉定位等。它能够在复杂的视觉场景中准确识别和描述对象，适用于高级图像理解和语言处理任务。

多模态大模型CogVLM：智谱AI的新篇章_语言模型_05

结论

CogVLM与之前的VisualGLM相比，进行了较大尺度的改进，特别是在多模态融合技术上。CogVLM不仅有基于GLM的双语模型，还有基于Llama2系列的英文模型。此外，为了减少模型的幻觉现象，CogVLM通过特定的微调和更大的参数量，显著降低了幻觉出现的频次。

CogVLM是一种先进的多模态模型，它在多模态理解方面取得了显著的成绩，特别是在视觉和语言的深度融合上。这个模型为多模态基础模型领域的研究和工业应用提供了新的可能性。

参考资料

GitHub

https://github.com/THUDM/CogVLM

huggingface

https://huggingface.co/THUDM/CogVLM

AI快站国内模型下载

https://aifasthub.com/models/THUDM

标签：模态,语言,AI,模型,17B,CogVLM,视觉,智谱
From： https://blog.51cto.com/u_16323307/8460559

failed to configure a datasource: ‘url‘ attribute is not specified and no em
问题场景在SpringBoot中整合MySQL、Mybatis进行数据库开发时，按照正常步骤添加了相关数据库的依赖，也进行了必要的数据库配置，结果在项目启动时出现如下异常信息：***************************APPLICATIONFAILEDTOSTART***************************Description:Failedto......
使用OpenAI Assistants三分钟搭建个人知识库AI助手网站
Assistants介绍随着OpenAI将Assistants助手API对外发布，我们搭建个人知识库变的如此简单。开发者将自己的应用通过AssistantsAPI与OpenAI对接，就可以让每一位客户拥有不一般体验的个人知识库。由于Assistants相关API有30+，本文只列举完成一个最小功能......
java智慧工地AI视频管理平台源码
智慧工地是指以物联网、移动互联网技术为基础，充分应用人工智能等信息技术，通过AI赋能建筑行业，对住建项目内人员、车辆、安全、设备、材料等进行智能化管理，实现工地现场生产作业协调、智能处理和科学管理。智慧工地的核心是以一种“更智慧”的方法来改进工程各干系组织和岗位人员相互......
django 信号第一个 raise ValidationError出现后，还会继续下一个if吗
在你提供的代码片段中，如果第一个raiseValidationError触发，会抛出异常并停止执行当前函数或代码块。这是因为异常（Exception）会中断正常的代码流程，将控制权传递给调用堆栈中的第一个能够捕获该异常的地方。所以，如果v_lot_no为空，第一个raiseValidationError被触发后，后续的if......
《Deep learning for fine-grained image analysis: A survey》阅读笔记
论文标题《Deeplearningforfine-grainedimageanalysis:Asurvey》作者魏秀参，旷世研究院初读摘要细粒度图像分析（FGIA）的任务是分析从属类别的视觉对象。细粒度性质引起的类间小变化和类内大变化使其成为一个具有挑战性的问题。本文旨在系统地调查基于深度学习的......
cf1864C. Divisor Chain
https://codeforces.com/contest/1864/problem/C思维越来越僵化了假如\(n=2^k\)，直接每次/2就行。否则，我们可以考虑如何转化成上面的情况令\(n=2^kx\)，那么我们显然可以转移到\(n=2^k(x-1)\)，因为x是奇数，所以2的次幂会加一，最后变成\(2^k\)次方的时候，每个数最多出现两次，正好符合......
hudson.plugins.git.GitException: Failed to delete workspace
持续集成环境（git+gitlab+jenkins+pipeline+maven+harbor+docker+k8s）之前都是ok的，突然就报错了：CloningtheremoteGitrepositoryCloningrepositorygit@192.168.117.180:qzcsbj/gift.gitERROR:Failedtocleantheworkspacejenkins.util.io.CompositeIOExc......
AI试用：ChatGPT-画旗袍美女效果
AI试用：ChatGPT-画旗袍美女效果Designby拓云智能强大的绘画工具，让您能够将灵感转化为真实的艺术作品。不论您是喜欢传统绘画还是数字绘画，ChatGPT都能够满足您的需求。它提供了各种绘画工具和特效，让您能够自由发挥创意，创作出独一无二的艺术作品。......
燧机AI盒子设备使用体会
项目急用买了这款设备，个人使用心得。优点：1、网站做的挺不错、散热做的不错。缺点：1、价格贵，识别率一般。2、估计是因为硬件算力低，图像压缩很模糊，后来发现是使用瑞芯微方案。3、除了支持三个事件接口，基本上不支持任何二次开发。......
SAP Commerce Cloud 的 DataIsolation flag
SAPCommerceCloudBack-Office里针对某个BaseSite可以编辑Dataisolation的flag，类型为Boolean.这个标志位决定是否针对site激活Dataisolation功能。SAP的官方帮助文档。SAPCommerceCloud支持多个站点以及这些站点内的数据隔离。可以管理每个站点的专用员......

多模态大模型CogVLM：智谱AI的新篇章

模型架构

模型效果

应用场景

结论

参考资料

相关文章

赞助商

阅读排行