首页 > 其他分享 >【模型部署】vLLM 部署 Qwen2-VL 踩坑记 02 - 推理加速

【模型部署】vLLM 部署 Qwen2-VL 踩坑记 02 - 推理加速

时间:2024-11-17 21:57:42浏览次数:1  
标签:02 NLP 坑记 部署 VL Qwen2 vLLM

【模型部署】vLLM 部署 Qwen2-VL 踩坑记 02 - 推理加速

NLP Github 项目:


重新安装

环境配置

# 根据官网配置特定版本的transformer和vllm
pip install git+https://github.com/huggingface/transformers@21fac7abba2a37fae86106f87fcf9974fd1e3830
pip install accelerate
pip install qwen-vl-utils
# Change to your CUDA version
CUDA_VERSION=cu121
pip install 'vllm==0.6.1' --extra-index-url https://download.pytorch.org/whl/${CUDA_VERSION}

启动服务

python -m vllm.entrypoints.openai.api_server --served-model-name Qwen2-VL-7B-Instruct --model Qwen/Qwen2-VL-7B-Instruct

模型服务启动成功,占用显存67G

模型测试

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
    "model": "Qwen2-VL-7B-Instruct",
    "messages": [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": [
        {"type": "image_url", "image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/resource/qwen.png"}},
        {"type": "text", "text": "What is the text in the illustrate?"}
    ]}
    ]
    }'

测试成功:

推理加速

使用 FlashAttention 进行加速

pip install flash-attn

后台运行,并记录日志

nohup python -m vllm.entrypoints.openai.api_server --served-model-name Qwen2-VL-7B-Instruct --model Qwen/Qwen2-VL-7B-Instruct > ./logs/output.log 2>&1 &


系列文章:

本文由mdnice多平台发布

标签:02,NLP,坑记,部署,VL,Qwen2,vLLM
From: https://www.cnblogs.com/fasterai/p/18551215

相关文章

  • Elasticsearch 在Linux下的安装部署和配置
    环境CentOS-7-x86_64-DVD-2009.isohttps://mirrors.aliyun.com/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-2009.isoelasticsearch-7.10.0-linux-x86_64.tar.gzhttps://www.elastic.co/cn/downloads/past-releases/elasticsearch-7-10-0https://artifacts.elastic.co/downl......
  • 2024-2025-1 20241406 刘书含《计算机基础与程序设计》第8周学习总结
    2024-2025-120241406《计算机基础与程序设计》第8周学习总结这个作业属于哪个课程 2024-2025-1-计算机基础与程序设计这个作业要求在哪里 如2024-2025-1计算机基础与程序设计第八周作业这个作业的目标 功能设计与面向对象设计>面向对象设计过程面向对象语言三要素汇编、编......
  • [考试记录] 2024.11.16 noip模拟赛14
    T1字符串构造机考虑将一个LCP条件拆分成两个,一个是相等的部分,使用并查集维护,另一个是不等的部分,两个串末尾的字符一定不相等,随便那啥维护。对于非法情况就是在同一个相等联通块内有不相等的条件。然后考虑从前往后贪心即可。#include<bits/stdc++.h>usingnamespacestd;#d......
  • SpringBoot运动心跳数据分析系统mef44(程序+源码+数据库+调试部署+开发环境)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容一、研究背景随着健康意识的不断提升,人们对自身运动状态及健康状况的关注度日益增强。心率作为反映人体健康状态的重要指标之一,其变化能够直观体现......
  • MLLM_20241117
    Paper1题目:INFERENCEOPTIMALVLMSNEEDONLYONEVISUALTOKENBUTLARGERMODELS作者团队:KevinY.Li,SachinGoyal,JoãoD.Semedo,J.ZicoKolter(CMU)链接:https://arxiv.org/abs/2411.033121.论文试图解决什么问题?是否是一个新问题?论文试图解决VLMs推理阶......
  • 2024-2025-1 20241328 《计算机基础与程序设计》第八周学习总结
    2024-2025-120241328《计算机基础与程序设计》第八周学习总结作业信息课程2024-2025-1-计算机基础与程序设计作业要求2024-2025-1计算机基础与程序设计第八周作业作业目标功能设计与面向对象设计,面向对象设计过程,面向对象语言三要素,汇编、编译、解释、执行作......
  • 2024-2025-1 20241304 《计算机基础与程序设计》第8周学习总结
    2024-2025-120241304《计算机基础与程序设计》第8周学习总结作业信息|这个作业属于哪个课程|<2024-2025-1-计算机基础与程序设计)|>|-- |-- ||这个作业要求在哪里|<作业要求的链接>(如2024-2025-1计算机基础与程序设计第八周作业)||这个作业的目标|<学习目标功能设计与面......
  • 2024-2025-1 20241325 王向龙 《计算机程序与设计》第八周学习总结
    2024-2025-120241325《计算机基础与程序设计》第8周学习总结这个作业属于哪个课程2024-2025-1-计算机基础与程序设计这个作业要求在哪里如2024-2025-1计算机基础与程序设计第八周作业这个作业的目标功能设计与面向对象设计>面向对象设计过程面向对象语言三要素......
  • scratch绘制八个正方形 2024年9月scratch四级真题 中国电子学会 图形化编程 scratch四
    目录scratch绘制八个正方形一、题目要求1、准备工作2、功能实现二、案例分析1、角色分析2、背景分析3、前期准备三、解题思路1、思路分析2、详细过程四、程序编写五、考点分析六、推荐资料1、入门基础2、蓝桥杯比赛3、考级资料4、视频课程5、python资料s......
  • NOIP2024加赛5
    暴力操作(opt)拜谢丁真首先题目有一个很明显的性质:我们肯定只会对前\(\cfrac{n+1}{2}\)个数进行操作使它变小。最后的答案很明显没看出来具有二分答案的性质,考虑怎么check。实则就是要判断前\(\cfrac{n+1}{2}\)个数是否都能\(\lemid\)。我们可以方便的找出\(a_i\)变......