首页 > 其他分享 >激发创新,助力研究:CogVLM,强大且开源的视觉语言模型亮相

激发创新,助力研究:CogVLM,强大且开源的视觉语言模型亮相

时间:2023-11-21 10:36:05浏览次数:35  
标签:助力 -- demo py CogVLM 开源 base cogvlm

激发创新,助力研究:CogVLM,强大且开源的视觉语言模型亮相

  • CogVLM 是一个强大的开源视觉语言模型(VLM)。CogVLM-17B 拥有 100 亿视觉参数和 70 亿语言参数。

  • CogVLM-17B 在 10 个经典跨模态基准测试上取得了 SOTA 性能,包括 NoCaps、Flicker30k captioning、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA 和 TDIUC,而在 VQAv2、OKVQA、TextVQA、COCO captioning 等方面则排名第二,超越或与 PaLI-X 55B 持平。您可以通过线上 demo 体验 CogVLM 多模态对话。

1.demo案例展示

  • CogVLM 能够准确地描述图像,几乎不会出现幻觉
    LLAVA-1.5 和 MiniGPT-4 的比较。

  • CogVLM 能理解和回答各种类型的问题,并有一个视觉定位版本。

  • CogVLM 有时比 GPT-4V(ision) 提取到更多的细节信息。

2.快速使用

CogVLM 模型包括四个基本组件:视觉变换器(ViT)编码器、MLP适配器、预训练的大型语言模型(GPT)和一个视觉专家模块。更多细节请参见论文

2.1入门指南

我们提供两种图形用户界面(GUI)进行模型推断,分别是网页演示命令行界面(CLI)。如果您想在Python代码中使用它,很容易修改CLI脚本以适应您的情况。

首先,需要安装依赖项。

pip install -r requirements.txt
python -m spacy download en_core_web_sm
  • 硬件要求
    • 模型推断:1 * A100(80G) 或 2 * RTX 3090(24G)。
    • 微调:4 * A100(80G) [推荐] 或 8 * RTX 3090(24G)。

2.2 网页演示

我们还提供基于Gradio的本地网页演示。首先,通过运行 pip install gradio 安装Gradio。然后下载并进入此仓库,运行 web_demo.py。具体使用方式如下:

python web_demo.py --from_pretrained cogvlm-chat --version chat --english --bf16
python web_demo.py --from_pretrained cogvlm-grounding-generalist --version base --english --bf16

网页演示的 GUI 界面如下:

2.3 CLI

我们开源了不同下游任务的模型权重:

  • cogvlm-chat 用于对齐的模型,在此之后支持像 GPT-4V 一样的聊天。
  • cogvlm-base-224 文本-图像预训练后的原始权重。
  • cogvlm-base-490 从 cogvlm-base-224 微调得到的 490px 分辨率版本。
  • cogvlm-grounding-generalist 这个权重支持不同的视觉定位任务,例如 REC、Grounding Captioning 等。

通过CLI演示,执行以下命令:

python cli_demo.py --from_pretrained cogvlm-base-224 --version base --english --bf16 --no_prompt
python cli_demo.py --from_pretrained cogvlm-base-490 --version base --english --bf16 --no_prompt
python cli_demo.py --from_pretrained cogvlm-chat --version chat --english --bf16
python cli_demo.py --from_pretrained cogvlm-grounding-generalist --version base --english --bf16

该程序会自动下载 sat 模型并在命令行中进行交互。您可以通过输入指令并按 Enter 生成回复。
输入 clear 可清除对话历史,输入 stop 可停止程序。

  • 参考链接

https://github.com/THUDM/CogVLM/tree/main

在 CogVLM 的指令微调阶段,使用了来自 MiniGPT-4LLAVALRV-InstructionLLaVARShikra 项目的一些英文图像-文本数据,

更多优质内容请关注公号:汀丶人工智能;会提供一些相关的资源和优质文章,免费获取阅读。

标签:助力,--,demo,py,CogVLM,开源,base,cogvlm
From: https://www.cnblogs.com/ting1/p/17845670.html

相关文章

  • 恭喜开源网安与赣州国投完成投资签约仪式
    11月20日,开源网安与赣州章贡区数智国投科技有限公司签订投资协议,签约后双方将在赣州打造软件供应链安全检测中心,以强大的软件测试能力为数字政府、数字经济等领域提供全面安全检测和软件安全运营监测等服务,提升软件的安全与质量,助力赣州和江西地区高质量发展。赣州市区委章贡区国投......
  • Revive开发商加入VR开源标准OpenXR
    作为一款能让HTCVive用户玩到Oculus平台游戏的软件,它的开发商CrossVR今日宣布即将加盟为VR和AR应用程序开源组织,即OpenXR。由KhronosGroup引领的OpenXR旨在创建一个标准化且免版税的应用程序编程接口(API),该API能够让应用程序登陆多种增强现实和虚拟现实头盔平台,由此消除行......
  • Databend 开源周报第 120 期
    Databend是一款现代云数仓。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。What'sOnInDatabend探索Databend本周新进展,遇到更贴近你心意的Databend。使用自定义CONNECTION管理存储访问Databend现已提......
  • 开源服务器监控工具——Monit的介绍及使用
    一、Monit简介Monit是一个跨平台的用来监控Unix/Linux系统(比如Linux、BSD、OSX、Solaris)的工具。易于安装,轻量级(只有500KB大小),不依赖于任何第三方程序、插件或者库。Monit可以监控服务器进程状态、HTTP/TCP状态码、服务器资源变化、文件系统变动等等,根据这些变化,可以设定邮件报......
  • 萤石网络推出数字人产品,助力线下实体产业升级
    当前,国内智能技术不断发展,越来越多的新技术不仅运用在高精尖领域,更是逐渐走进人们的生活。尤其在线下实体经济的升级转型过程中,各种数字化装备和智能化产品为行业带来简单可靠的解决方案,为消费者提供精准贴心的服务。比如萤石网络就于近期推出了全新的多模态3D数字人产品,其......
  • 【开源】基于Vue.js的天然气工程运维系统的设计和实现
    一、摘要1.1项目介绍基于Vue+SpringBoot+MySQL的天然气工程运维系统,包含工程项目模块、材料档案模块、材料领用单模块,还包含系统自带的用户管理、部门管理、角色管理、菜单管理、日志管理、数据字典管理、文件管理、图表展示等基础模块,天然气工程运维系统基于角色的访问控制,给工程......
  • 采用开源工具搭建网络监控平台的解决方案
    目标建立一个全面、可扩展的网络监控系统,实时监控公司网络的健康状况、性能指标和安全警报,以提高网络可靠性和效率。解决方案采用集成多个开源工具的方法,构建一个包括实时监控、数据分析、可视化和告警的综合网络监控平台。核心组件数据采集:使用Prometheus作为主要的数据采集系统。......
  • 小小发票拦住出海“巨头”,合合信息智能文档处理技术助力企业重塑财务管理流程
    小小发票拦住出海“巨头”,合合信息智能文档处理技术助力企业重塑财务管理流程 作为连接企业采购、生产、运营、销售等经营行为的枢纽,财务系统的数字化、智能化升级近年来变得愈发重要。发票的录入、存储关乎企业应收账款管理和税务规范,通过技术手段提升发票管理的精准度与效率......
  • 微信wxid转换二维码微信号加好友工具,自动批量转码器免费分享,开源版哈收藏!
    wxid估计很多小伙伴都知道,就是属于那种没有设置了微信号的账号,它没有设置自己的微信号或者就显示了默认的ID值,这个ID值你是没办法通过微信的好友添加框去添加的,但是有一种办法可以实现这种效果,只需要用软件,安卓手机或者电脑都可以我这里分享的是电脑的源码,目前是2023年11月20号,这......
  • 从热爱到深耕,全国Top10开源软件出品人探索“开源云上行”
    本文分享自华为云社区《【先锋开发者云上说】从热爱到深耕,全国Top10开源软件出品人探索“开源云上行”》,作者:华为云社区精选。《2022-2023中国开源开发者调查报告》中有数据显示:只有2%的开发者从未使用过开源,49%的开发者表示参与过开源;63%的开发者从未在开源中获得收入,超过80%的......