首页 > 其他分享 >阿里重磅开源Qwen2-VL:超越人类的视觉理解能力,从医学影像到手写识别,这款开源多模态大模型究竟有多强?(附本地化部署教程)

阿里重磅开源Qwen2-VL:超越人类的视觉理解能力,从医学影像到手写识别,这款开源多模态大模型究竟有多强?(附本地化部署教程)

时间:2024-09-03 23:13:50浏览次数:9  
标签:Qwen2 模型 VL dev 开源 医学影像 pip 有多强

阿里重磅开源Qwen2-VL:超越人类的视觉理解能力,从医学影像到手写识别,这款开源多模态大模型究竟有多强?(附本地化部署教程)

模型介绍

最近呢,阿里巴巴开源了Qwen2-VL,在多模态大模型展现了在实际应用中的巨大潜力,尤其是在处理跨模态数据方面表现出众。以下是该模型的几大应用亮点:

  1. 智能客服新范式:Qwen2-VL可应用于视频客服场景,实时分析用户展示的产品图像或条形码,并给出相关商品信息,大幅提升人机交互体验。

  2. 赋能医疗、安防等行业:该模型能处理复杂的图像视频输入,支持医学影像分析、智能监控等任务,有望在多个领域实现技术变革。

  3. 面向全球的智能助理:Qwen2-VL支持多语言的视觉语言交互,可实现跨语言的图文互译、视频摘要等功能,在跨国企业服务中大有可为。

  4. 连接现实世界的强大工具:通过调用API、访问外部数据等能力,该模型可以获取航班、天气、物流等实时信息,为各行业提供强大的数字化工具。

  5. 提升内容生产力:Qwen2-VL可根据视觉输入自动生成文案、设计元素,助力内容创作者提高生产效率,在广告营销等领域潜力巨大。

Qwen2-VL代表了视觉语言大模型技术的最新发展方向,其在多模态理解、生成、交互等方面的突出表现,标志着人工智能走向成熟应用的新里程碑。随着算法迭代和产业探索的不断深入,Qwen2-VL有望成长为引领未来智慧社会的关键科技力量。

Qwen2-VL-72B在线预览链接

  1. Qwen2-VL-72B 在线预览:https://huggingface.co/spaces/Qwen/Qwen2-VL
  2. 模型官网介绍:https://qwenlm.github.io/zh/blog/qwen2-vl/

本地化部署

这里使用autodl 机器学习平台,官网地址:https://www.autodl.com/market/list

直接到算力市场,选择按量计费,地区随便选择一个,这里使用4090显卡。

如图选择PyTorch 版本,最后点击创建。

创建好以后就来到了控制台,点击AutoPanel 面板,设置默认为清华源。

点击选择清华源,因为清华源下载依赖包比较快。

接着回到控制台,点击进入JupyterLab

进入到autodl-tmp 目录下,然后打开终端。

然后克隆项目,输入如下命令:

git clone https://github.com/QwenLM/Qwen2-VL.git

继续打开一个笔记本,下载模型。

键入如下代码后运行:

!pip install modelscope

继续键入如下代码下载模型:

from modelscope.hub.snapshot_download import snapshot_download

model_dir = snapshot_download('qwen/Qwen2-VL-7B-Instruct', cache_dir='ai_models')

出现进度条说明模型开始下载了。

image-20240903220813294

然后回到终端,进入Qwen2-VL 目录。

cd Qwen2-VL/

创建虚拟环境

# 创建一个名为venv 的虚拟环境。
python -m venv venv

接着激活虚拟环境。

 source ./venv/bin/activate

安装依赖

 pip install -r requirements_web_demo.txt

安装好依赖以后,我们更新pip

pip install --upgrade pip

VsCode 远程连接

回到控制台,复制ssh配置。

image-20240903222202493

打开Vsocode,远程连接。

粘贴登录信息

选择第一个默认配置。

选择第一个链接。

复制密码

image-20240903222645733

粘贴密码

接着打开文件夹,选择/root/autodl-tmp/Qwen2-VL/

选择信任

点击打开终端

接着激活虚拟环境。

 source ./venv/bin/activate

接着回到笔记本模型哪里,复制下载的模型路径。

回到VsCode ,编辑web_demo_mm.py,设置模型的路径为如下:

最后,见证奇迹的时候到了,运行我们的Python代码。

 python web_demo_mm.py 

选择在浏览器打开。

接着,就可以快乐的玩耍了。

我们来试着让它帮我们识别发票。

Tips

在视频总结会遇到一些错误,我们可以按以下步骤解决这个问题:

  1. 安装系统级依赖:
    首先,我们需要安装一些必要的系统库,这些库是 PyAV 所需要的。打开终端,运行以下命令:

    sudo apt-get update
    sudo apt-get install -y libavformat-dev libavcodec-dev libavdevice-dev libavutil-dev libswscale-dev libswresample-dev libavfilter-dev
    
  2. 安装 PyAV:
    现在我们可以安装 PyAV 了。在终端中运行:

    pip install av
    
  3. 更新 torchvision:
    确保 torchvision 是最新版本:

    pip install --upgrade torchvision
    
  4. 检查其他依赖:
    更新所有其他必要的包:

    pip install --upgrade -r requirements.txt
    

    (假设您的项目目录中有 requirements.txt 文件)

  5. 如果您使用的是虚拟环境(venv),请确保在执行上述命令前已激活该环境。

  6. 重新运行您的脚本,看看问题是否解决。

如果在执行这些步骤后仍然遇到问题,可能需要检查一下您的 CUDA 版本(如果您在使用 GPU)是否与您的 PyTorch 和 torchvision 版本兼容。

总结

想象一下,如果有了Qwen2-VL的加持,我们去医院检查就不用再发愁看不懂片子了,系统会自动帮你分析;逛淘宝时只要给客服发个包包的图,它就能告诉你详细信息,购物体验直接起飞!

而且啊,Qwen2-VL还是个"外语小达人",能听懂多国语言,帮你翻译文字、总结视频要点,出国旅行、做跨国生意完全不用愁。

还有还有,这位小助手简直是内容创作者的福音!输入一张图,它就能帮你自动生成文案、设计素材,以后做广告、写稿件效率直接翻倍!

想不到吧,原来人工智能已经这么厉害了!阿里这次开源Qwen2-VL,让我们普通用户也能享受到顶尖AI技术的便利,是不是瞬间感觉未来触手可及了呢?

科技始终来源于人性,Qwen2-VL的出现,让机器真正成为了我们生活中贴心的助手和朋友。相信在不久的将来,类似的AI应用将遍地开花,让我们拭目以待吧!

本文由博客一文多发平台 OpenWrite 发布!

标签:Qwen2,模型,VL,dev,开源,医学影像,pip,有多强
From: https://www.cnblogs.com/taoxiaoxin/p/18395633

相关文章

  • java实现的开源mocker造数神器,10分钟可完成千万级别数据的造数-入门篇
    java实现的开源mocker造数神器,10分钟可完成千万级别数据的造数-入门篇如果你还在为数据库表造数烦恼?如果你还在造数上花费一天、一周、甚至更多的时间……也许Mocker(模客)能帮你排忧解难。造数是一件令人头疼、繁琐而又无趣的事情,但有些时候它又是开发过程中不可避免的一个阶段......
  • 星图云开源APP新手入门教程,一分钟GET源码!
    星图云APP开源项目介绍:本项目是一个开源的移动应用开发模版,旨在帮助人们快速搭建一个具备数字地球基本功能的应用程序,并根据自己的需求进行定制和扩展。它提供了地图基本功能和其他常见的开发模块,使开发过程更加高效和便捷。功能特性:○地图展示:集成了数字地球功能,提供地图展示......
  • 在3D Slicer中使用 Monai Bundle 和 Model Zoo 标注医学影像数据-CT肺结节检测
    在3DSlicer中使用MonaiBundle和ModelZoo标注医学影像数据-CT肺结节检测导读本系列涵盖从3DSlicer医学图像查看器的基础使用到高级自动分割扩展程序的内容(从入门到高阶!),具体包括软件安装、基础使用教程,自动分割扩展(totalsegmentator,monailabel)快速标注数据。在本系列第......
  • 使用 Monai Bundle 和 Model Zoo 对医学影像数据进行分类-全脑133个结构分割
    使用MonaiBundle和ModelZoo对医学影像数据进行分类-全脑133个结构分割文章目录导读MonaiBundle和ModelZoo简单介绍基于monaibundle的MRI全脑分割模型简介模型描述模型训练细节训练数据注意事项电脑配置完整的133个脑结构列表在3Dslicer使用全脑结构分割模型完整的133......
  • 加入华为云开源共创,让优秀开发者支持更优秀开发者
    8月21日至23日,由Linux基金会、云原生计算基金会(CNCF)联合主办的全球顶级开源盛会KubeCon+CloudNativeCon+OpenSourceSummit+AI_DevChina2024,在中国香港隆重举办。作为全球云原生企业和全球开源生态建设的先锋,华为以开源携手共建智能世界底座,带来多领域开源成果,共探技术与方案......
  • 开源问卷调查和考试系统 SurveyKing 安装和使用教程
    最近公司又要搞什么满意度调查了,我这个小菜鸟又要头疼了。上次用那个破系统,界面丑不说,功能还少得可怜,搞得我加班到半夜。这回非得找个好用的不可。正发愁呢,突然想起来前两天同事小王推荐了一个叫“卷王”的开源系统,这名字挺有意思的,我还以为是什么“卷王”专用的问卷系统呢,后......
  • HivisionIDPhotos :一款开源的轻量级且高效的AI证件照制作工具
    HivisionIDPhotos是一款开源的轻量级且高效的AI证件照制作工具,它通过AI算法实现了对多种用户拍照场景的识别、抠图以及证件照生成。这款工具能够根据不同的尺寸规格生成标准证件照和排版照,适用于护照、签证等多种用途。HivisionIDPhotos的主要特点包括轻量级抠图、生成标准证......
  • 开源模型应用落地-qwen2-7b-instruct-LoRA微调&合并-ms-swift-单机多卡-RTX 4090双卡(
    一、前言  本篇文章将使用ms-swift去合并微调后的模型权重,通过阅读本文,您将能够更好地掌握这些关键技术,理解其中的关键技术要点,并应用于自己的项目中。二、术语介绍2.1.LoRA微调  LoRA(Low-RankAdaptation)用于微调大型语言模型(LLM)。 是一种有效的自适应......
  • 省钱的开源项目「GitHub 热点速览」W3
    本期,我从上周的热门开源项目中挑选了5个既省钱又省事,还好玩的开源项目。首先,推荐的是省钱的电动汽车智能充电管理平台evcc,它可以根据分时电价智能安排电动车充电时间,从而降低电费,如果你家还有太阳能充电和储能设备,evcc更能最大限度地利用电能,让你的充电成本降到最低。说到省......
  • 【Certimate - 免费SSL证书自动申请、续期工具】开源 SSL 证书自动管理工具推荐
    CertimateCertimate是一个开源的SSL证书管理工具,具有以下特点:支持私有部署:部署方法简单,只需下载二进制文件并执行即可完成安装。数据安全:由于是私有部署,所有数据均存储在本地,不会保存在服务商的服务器上,确保数据的安全性。操作方便:通过简单的配置即可轻松申请SSL证......