CogVLM

2024-06-17CogVLM/CogAgent环境搭建&推理测试-CSDN博客
引子最近在关注多模态大模型，之前4月份的时候关注过CogVLM（https://blog.csdn.net/zzq1989_/article/details/138337071?spm=1001.2014.3001.5501）。模型整体表现还不错，不过不支持中文。智谱AI刚刚开源了GLM-4大模型，套餐里面包含了GLM-4V-9B大模型，模型基于GLM-4-9B的多模态模型GL
2024-04-30CogVLM/CogAgent环境搭建&推理测试
引子对于多模态大语言模型，一直没有怎么接触。刚巧一朋友有问到这方面的问题，也就顺手调研下。智谱AI的东西一直以来，还是很不错的。ChatGLM的忠实fans，看到白嫖网站github上有他们开源的多模态CogVLM/CogAgent，那就顺手看看了。OK，让我们开始吧。一、模型介绍CogVLM 是一个强大
2023-11-21激发创新，助力研究：CogVLM，强大且开源的视觉语言模型亮相
激发创新，助力研究：CogVLM，强大且开源的视觉语言模型亮相CogVLM是一个强大的开源视觉语言模型（VLM）。CogVLM-17B拥有100亿视觉参数和70亿语言参数。CogVLM-17B在10个经典跨模态基准测试上取得了SOTA性能，包括NoCaps、Flicker30kcaptioning、RefCOCO、RefCOCO+、RefCO
2023-11-18多模态大模型CogVLM：智谱AI的新篇章
CogVLM，这是一种新的视觉语言基础模型，由智谱AI和清华KEG联合开发。CogVLM在不牺牲任何NLP任务性能的情况下，实现了视觉语言特征的深度融合。CogVLM-17B模型在多模态权威学术榜单上取得了综合成绩第一的成绩，在14个数据集上取得了state-of-the-art或者第二名的成绩。模型架构CogVLM的核
2023-11-05多模态-CogVLM
图文多模态方向：利用现有强大的预训练图像和语言大模型，冻结其参数并通过可训练模块建立起图像与语言模型间联系，实现对图文数据的联合处理能力。CoGVLM结构整个网络结构由4部分构成：视觉模型(ViTencoder),语言模型(LLM),MLP适配器(MLPadapter)，视觉专家模块(visualexpert