首页 > 其他分享 >【FreedomMan原创】本地离线部署通义千问2-VL多模态大模型推理【图生文】

【FreedomMan原创】本地离线部署通义千问2-VL多模态大模型推理【图生文】

时间:2024-11-19 12:45:31浏览次数:3  
标签:torch 离线 模型 图生文 VL import model dir

开发环境、工具

windows10 专业版
idea2020.1.4、anaconda3、python3.11.10

机器配置

I5-1240P、16GRAM

模型名称

通义千问 Qwen/Qwen2-VL-2B-Instruct-GPTQ-Int8

代码调用示例

本机无cudn显卡,使用cpu推理调用

from transformers import Qwen2VLForConditionalGeneration, AutoProcessor
from qwen_vl_utils import process_vision_info
import torch

# 指定本地模型路径
model_dir = 'D:/work/program/pytorch_models/Qwen/Qwen2-VL-2B-Instruct-GPTQ-Int8'

# 加载模型
model = Qwen2VLForConditionalGeneration.from_pretrained(
    model_dir,
    torch_dtype=torch.float32,  # 使用 float32 数据类型
    device_map="cpu"  # 使用 CPU
)

# 加载处理器
processor = AutoProcessor.from_pretrained(model_dir)

# 输入消息
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "file://D:\\work\\code\\clark\\gitee\\py_llm\\output\

标签:torch,离线,模型,图生文,VL,import,model,dir
From: https://blog.csdn.net/woaichinaidiao/article/details/143873282

相关文章

  • VL4AD:让语义分割认识未知类别,无需额外数据和训练的OOD语义分割 | ECCV'24
    来源:晓飞的算法工程笔记公众号,转载请注明出处论文:VL4AD:Vision-LanguageModelsImprovePixel-wiseAnomalyDetection论文地址:https://arxiv.org/abs/2409.17330创新性提出VL4AD模型用于解决语义分割网络难以检测来自未知语义类别的异常的问题,避免额外的数据收集......
  • VLC多媒体播放器 合并字幕srt文件和mp4文件 方法
    转载自:链接:https://blog.csdn.net/sdkdlwk/article/details/143867825作者:sdkdlwk 步骤:1. 将视频和字幕放到同一个文件夹,并保证二者名字相同。选择菜单"媒体"->"流"或者ctrl+s点"添加"选择视频文件,注意这里不要选择下面的使用字幕文件 点击"串流"2. 一直往下点,直......
  • 使用Pytorch构建视觉语言模型(VLM)
    视觉语言模型(VisionLanguageModel,VLM)正在改变计算机对视觉和文本信息的理解与交互方式。本文将介绍VLM的核心组件和实现细节,可以让你全面掌握这项前沿技术。我们的目标是理解并实现能够通过指令微调来执行有用任务的视觉语言模型。总体架构VLM的总体架构包括:图像编码器(I......
  • VLM版o1超越一众开源和闭源模型!LLaVA-o1:多阶段自主推理(北大&清华&阿里等)
    论文链接:https://arxiv.org/abs/2411.10440亮点直击引入了LLaVA-o1,这是一种专为系统性推理设计的视觉语言模型,在需要结构化思维和推理的任务中表现出色。证明了LLaVA-o1使用阶段级束搜索具有推理时的可扩展性。这意味着通过增加计算资源,本文的方法性能可以进一步提......
  • 【模型部署】vLLM 部署 Qwen2-VL 踩坑记 03 - 多图支持和输入格式问题
    【模型部署】vLLM部署Qwen2-VL踩坑记03-多图支持和输入格式问题NLPGithub项目:NLP项目实践:fasterai/nlp-project-practice介绍:该仓库围绕着NLP任务模型的设计、训练、优化、部署和应用,分享大模型算法工程师的日常工作和实战经验AI藏经阁:https://gitee.com/fast......
  • Servlet 容器
    Servlet容器(如ApacheTomcat)负责管理和运行Servlet。Tomcat通过一系列的机制来加载、初始化、处理请求和销毁Servlet。以下是Tomcat如何支持Servlet的详细过程:1.加载Servlet读取web.xml配置文件:Tomcat启动时,会读取WEB-INF/web.xml文件,该文件定义了Web应用......
  • 修改IDEA中Servlet创建的模板
    一、原Servlet模板创建出来的格式样式二、按图步骤修改注释参数1.点击File->选择Settings,按下图步骤进入设置项。修改前的模板样式2.修改类创建时的默认方法三、重新创建Servlet时,新模板样式......
  • 【AI绘画】Alpha-VLLM 的 Lumina-Next:新一代图像生成器
    简介Lumina-Next-T2I是在Lumina-T2I成功基础上发展起来的尖端图像生成模型。它采用了带有2B参数模型的Next-DiT和Gemma-2B文本编码器,推理速度更快,生成样式更丰富,并增强了多语言支持。模型架构Lumina-Next-T2I的生成模型建立在Next-DiT骨干之上,文本编码器是......
  • vllm docker-compose
    version:'3'services:moonlit-vllm-qwen-hotvideo:image:vllm/vllm-openai:v0.6.2container_name:hitvideos_apirestart:alwayscommand:["--served-model-name","qwen2.5-14b-hitvideos","......
  • 上海AI Lab Mono-InternVL环境搭建&推理测试
    ​引子        原生多模态大模型性能瓶颈,迎来新突破!上海AILab代季峰老师团队,提出了全新的原生多模态大模型Mono-InternVL。与非原生模型相比,该模型首个单词延迟最多降低67%,在多个评测数据集上均达到了SOTA水准。OK,那就让我们开始吧。一、模型介绍        将......