• 2024-06-17CogVLM/CogAgent环境搭建&推理测试-CSDN博客
    引子最近在关注多模态大模型,之前4月份的时候关注过CogVLM(https://blog.csdn.net/zzq1989_/article/details/138337071?spm=1001.2014.3001.5501)。模型整体表现还不错,不过不支持中文。智谱AI刚刚开源了GLM-4大模型,套餐里面包含了GLM-4V-9B大模型,模型基于GLM-4-9B的多模态模型GL
  • 2024-04-30CogVLM/CogAgent环境搭建&推理测试
    ​引子对于多模态大语言模型,一直没有怎么接触。刚巧一朋友有问到这方面的问题,也就顺手调研下。智谱AI的东西一直以来,还是很不错的。ChatGLM的忠实fans,看到白嫖网站github上有他们开源的多模态CogVLM/CogAgent,那就顺手看看了。OK,让我们开始吧。一、模型介绍CogVLM 是一个强大
  • 2023-11-21激发创新,助力研究:CogVLM,强大且开源的视觉语言模型亮相
    激发创新,助力研究:CogVLM,强大且开源的视觉语言模型亮相CogVLM是一个强大的开源视觉语言模型(VLM)。CogVLM-17B拥有100亿视觉参数和70亿语言参数。CogVLM-17B在10个经典跨模态基准测试上取得了SOTA性能,包括NoCaps、Flicker30kcaptioning、RefCOCO、RefCOCO+、RefCO
  • 2023-11-18多模态大模型CogVLM:智谱AI的新篇章
    CogVLM,这是一种新的视觉语言基础模型,由智谱AI和清华KEG联合开发。CogVLM在不牺牲任何NLP任务性能的情况下,实现了视觉语言特征的深度融合。CogVLM-17B模型在多模态权威学术榜单上取得了综合成绩第一的成绩,在14个数据集上取得了state-of-the-art或者第二名的成绩。模型架构CogVLM的核
  • 2023-11-05多模态-CogVLM
    图文多模态方向:利用现有强大的预训练图像和语言大模型,冻结其参数并通过可训练模块建立起图像与语言模型间联系,实现对图文数据的联合处理能力。CoGVLM结构  整个网络结构由4部分构成:视觉模型(ViTencoder),语言模型(LLM),MLP适配器(MLPadapter),视觉专家模块(visualexpert