【模型部署】vLLM 部署 Qwen2-VL 踩坑记 02 - 推理加速

NLP Github 项目：

NLP 项目实践：fasterai/nlp-project-practice

介绍：该仓库围绕着 NLP 任务模型的设计、训练、优化、部署和应用，分享大模型算法工程师的日常工作和实战经验
AI 藏经阁：https://gitee.com/fasterai/ai-e-book

介绍：该仓库主要分享了数百本 AI 领域电子书
AI 算法面经：fasterai/nlp-interview-handbook#面经

介绍：该仓库一网打尽互联网大厂NLP算法面经，算法求职必备神器
NLP 剑指Offer：https://gitee.com/fasterai/nlp-interview-handbook

介绍：该仓库汇总了 NLP 算法工程师高频面题

重新安装

环境配置

# 根据官网配置特定版本的transformer和vllm
pip install git+https://github.com/huggingface/transformers@21fac7abba2a37fae86106f87fcf9974fd1e3830
pip install accelerate
pip install qwen-vl-utils
# Change to your CUDA version
CUDA_VERSION=cu121
pip install 'vllm==0.6.1' --extra-index-url https://download.pytorch.org/whl/${CUDA_VERSION}

启动服务

python -m vllm.entrypoints.openai.api_server --served-model-name Qwen2-VL-7B-Instruct --model Qwen/Qwen2-VL-7B-Instruct

模型服务启动成功，占用显存67G

模型测试

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
    "model": "Qwen2-VL-7B-Instruct",
    "messages": [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": [
        {"type": "image_url", "image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/resource/qwen.png"}},
        {"type": "text", "text": "What is the text in the illustrate?"}
    ]}
    ]
    }'

测试成功：

推理加速

使用 FlashAttention 进行加速

pip install flash-attn

后台运行，并记录日志

nohup python -m vllm.entrypoints.openai.api_server --served-model-name Qwen2-VL-7B-Instruct --model Qwen/Qwen2-VL-7B-Instruct > ./logs/output.log 2>&1 &

系列文章：

本文由mdnice多平台发布

标签：02,NLP,坑记,部署,VL,Qwen2,vLLM
From： https://www.cnblogs.com/fasterai/p/18551215

Elasticsearch 在Linux下的安装部署和配置
环境CentOS-7-x86_64-DVD-2009.isohttps://mirrors.aliyun.com/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-2009.isoelasticsearch-7.10.0-linux-x86_64.tar.gzhttps://www.elastic.co/cn/downloads/past-releases/elasticsearch-7-10-0https://artifacts.elastic.co/downl......
2024-2025-1 20241406 刘书含《计算机基础与程序设计》第8周学习总结
2024-2025-120241406《计算机基础与程序设计》第8周学习总结这个作业属于哪个课程 2024-2025-1-计算机基础与程序设计这个作业要求在哪里如2024-2025-1计算机基础与程序设计第八周作业这个作业的目标功能设计与面向对象设计>面向对象设计过程面向对象语言三要素汇编、编......
[考试记录] 2024.11.16 noip模拟赛14
T1字符串构造机考虑将一个LCP条件拆分成两个，一个是相等的部分，使用并查集维护，另一个是不等的部分，两个串末尾的字符一定不相等，随便那啥维护。对于非法情况就是在同一个相等联通块内有不相等的条件。然后考虑从前往后贪心即可。#include<bits/stdc++.h>usingnamespacestd;#d......
SpringBoot运动心跳数据分析系统mef44（程序+源码+数据库+调试部署+开发环境）
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容一、研究背景随着健康意识的不断提升，人们对自身运动状态及健康状况的关注度日益增强。心率作为反映人体健康状态的重要指标之一，其变化能够直观体现......
MLLM_20241117
Paper1题目:INFERENCEOPTIMALVLMSNEEDONLYONEVISUALTOKENBUTLARGERMODELS作者团队:KevinY.Li,SachinGoyal,JoãoD.Semedo,J.ZicoKolter（CMU）链接:https://arxiv.org/abs/2411.033121.论文试图解决什么问题？是否是一个新问题？论文试图解决VLMs推理阶......
2024-2025-1 20241328 《计算机基础与程序设计》第八周学习总结
2024-2025-120241328《计算机基础与程序设计》第八周学习总结作业信息课程2024-2025-1-计算机基础与程序设计作业要求2024-2025-1计算机基础与程序设计第八周作业作业目标功能设计与面向对象设计，面向对象设计过程，面向对象语言三要素，汇编、编译、解释、执行作......
2024-2025-1 20241304 《计算机基础与程序设计》第8周学习总结
2024-2025-120241304《计算机基础与程序设计》第8周学习总结作业信息|这个作业属于哪个课程|<2024-2025-1-计算机基础与程序设计）|>|-- |-- ||这个作业要求在哪里|<作业要求的链接>(如2024-2025-1计算机基础与程序设计第八周作业)||这个作业的目标|<学习目标功能设计与面......
2024-2025-1 20241325 王向龙《计算机程序与设计》第八周学习总结
2024-2025-120241325《计算机基础与程序设计》第8周学习总结这个作业属于哪个课程2024-2025-1-计算机基础与程序设计这个作业要求在哪里如2024-2025-1计算机基础与程序设计第八周作业这个作业的目标功能设计与面向对象设计>面向对象设计过程面向对象语言三要素......
scratch绘制八个正方形 2024年9月scratch四级真题中国电子学会图形化编程 scratch四
目录scratch绘制八个正方形一、题目要求1、准备工作2、功能实现二、案例分析1、角色分析2、背景分析3、前期准备三、解题思路1、思路分析2、详细过程四、程序编写五、考点分析六、推荐资料1、入门基础2、蓝桥杯比赛3、考级资料4、视频课程5、python资料s......
NOIP2024加赛5
暴力操作（opt）拜谢丁真首先题目有一个很明显的性质：我们肯定只会对前\(\cfrac{n+1}{2}\)个数进行操作使它变小。最后的答案很明显没看出来具有二分答案的性质，考虑怎么check。实则就是要判断前\(\cfrac{n+1}{2}\)个数是否都能\(\lemid\)。我们可以方便的找出\(a_i\)变......

【模型部署】vLLM 部署 Qwen2-VL 踩坑记 02 - 推理加速

【模型部署】vLLM 部署 Qwen2-VL 踩坑记 02 - 推理加速

重新安装

环境配置

启动服务

模型测试

推理加速

使用 FlashAttention 进行加速

后台运行，并记录日志

相关文章

赞助商

阅读排行