首页 > 其他分享 >通过vllm 部署qwen2 模型

通过vllm 部署qwen2 模型

时间:2024-07-19 09:00:52浏览次数:13  
标签:qwen2 模型 modelscope -- cuda https nvidia vllm

主要是一个简单测试

安装vllm

  • pip 模式安装

部分包比较大, 注意时间, 最好使用一个加速, 目前阿里云的似乎有限速了,可以试试清华的https://pypi.tuna.tsinghua.edu.cn/simple

python -m venv venv
source venv/bin/ac
source  venv/bin/activate
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple   vllm 

openai兼容api 模式运行qwen2

使用modelscope 进行模型的下载

  • 配置modelscope
export VLLM_USE_MODELSCOPE=True
  • 运行qwen2 7b 模式
    相对比较慢,所以推荐配置上边的东西,同时会进行模型的下载,模型都比较大
python -m vllm.entrypoints.openai.api_server \
    --model qwen/Qwen2-7B-Instruct \
    --host 0.0.0.0 \
    --port  8080 

可能的问题:
ImportError('libcuda.so.1: cannot open shared object file: No such file or directory'), 这个目前属于waring ,暂时可以不用处理
缺少modelscope,因为配置了VLLM_USE_MODELSCOPE 所以还需要安装modelscope pip install -i https://pypi.tuna.tsinghua.edu.cn/simple modelscope
而且可能还会有提示缺少nvidia 驱动相关的,安装处理如下
cuda.repo

[cuda-rhel9-x86_64]
name=cuda-rhel9-x86_64
baseurl=https://developer.download.nvidia.com/compute/cuda/repos/rhel9/x86_64
enabled=1
gpgcheck=1
gpgkey=https://developer.download.nvidia.com/compute/cuda/repos/rhel9/x86_64/D42D0685.pub

安装

sudo dnf install epel-release
sudo dnf clean all
sudo dnf install nvidia-driver nvidia-settings  cuda-drivers
// 注意之后reboot 下系统

ValueError: Bfloat16 is only supported on GPUs with compute capability of at least 8.0. Your Tesla T4 GPU has compute capability 7.5. You can use float16 instead by explicitly setting thedtype flag in CLI, for example: --dtype=half
运行配置参数修改

python -m vllm.entrypoints.openai.api_server \
    --model qwen/Qwen2-7B-Instruct \
    --api-key qwen2demo \
    --host 0.0.0.0 \
    --dtype half \
    --port  8080  

Nvidia 内核模块加载问题,可选的通过自己配置下
sudo dkms autoinstall sudo modprobe nvidia 之后可以通过nvidia-smi 或者lsmod |grepnvidia 进行验证内核模块是否加载成功

  • api 访问
curl http://localhost:8080/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
    "model": "Qwen2-7B-Instruct",
    "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "LoRA 是什么"}
    ]
    }'
  • gpu 信息查看

 

说明

vllm 比较适合进行多机多卡运行模式,对于单机模式,ollama 还是优先选择,至少比较简单快速,对于多节点部署模式需要依赖ray,同时注意GPU 版本的选择,推荐还是使用较新的,老版本的,处理就是慢, 关于GPU 配置部分ollama 的安装shell 还是很值得学习参考的

参考资料

https://docs.vllm.ai/en/stable/getting_started/quickstart.html
https://www.modelscope.cn/home
https://www.modelscope.cn/models/qwen/Qwen2-7B-Instruct/summary
https://docs.vllm.ai/en/stable/serving/distributed_serving.html
https://docs.vllm.ai/en/stable/serving/env_vars.html
https://discuss.luxonis.com/d/3868-libcudaso1-issue-in-colab/5
https://stackoverflow.com/questions/54249577/importerror-libcuda-so-1-cannot-open-shared-object-file
https://github.com/vllm-project/vllm/issues/1369

标签:qwen2,模型,modelscope,--,cuda,https,nvidia,vllm
From: https://www.cnblogs.com/rongfengliang/p/18244279

相关文章

  • R语言中贝叶斯网络(BN)、动态贝叶斯网络、线性模型分析错颌畸形数据|附代码数据
    全文链接:http://tecdat.cn/?p=22956最近我们被客户要求撰写关于贝叶斯网络的研究报告,包括一些图形和统计输出。贝叶斯网络(BN)是一种基于有向无环图的概率模型,它描述了一组变量及其相互之间的条件依赖性。它是一个图形模型,我们可以很容易地检查变量的条件依赖性和它们在图中的方向......
  • SuperCLUE:中文大模型基准测评2024年上半年报告
       SuperCLUE是一个中文通用大模型的综合性评测基准,其前身是CLUE(TheChineseLanguageUnderstandingEvaluation),自2019年成立以来,CLUE基准一直致力于提供科学、客观和中立的语言模型评测。SuperCLUE继承并发展了CLUE的测评体系,构建了一个多层次、多维度的综合性测评基准......
  • CSS盒子模型 (圆角边框,盒子阴影,文字阴影)
    (大家好,今天我们将继续来学习CSS的相关知识,大家可以在评论区进行互动答疑哦~加油!......
  • 大模型中的RLHE剖析
    该博文内容摘自:https://blog.csdn.net/chaishen10000/article/details/131232948https://github.com/microsoft/DeepSpeedExamples/tree/master/applications/DeepSpeed-Chat 一、RLHF微调三阶段参考:https://huggingface.co/blog/rlhf1)使用监督数据微调语言模型,和fine......
  • 大模型预训练优化参数设置
    文章目录基于批次数据的训练学习率优化器稳定优化技术    与传统神经网络的优化类似,通常使用批次梯度下降算法来进行模型参数的调优。同时,通过调整学习率以及优化器中的梯度修正策略,可以进一步提升训练的稳定性。为了防止模型对数据产生过度拟合,训练中还......
  • 模型预训练任务
    文章目录语言建模去噪自编码混合去噪器    在进行模型的大规模预训练时,往往需要设计合适的自监督预训练任务,使得模型能够从海量无标注数据中学习到广泛的语义知识与世界知识。目前,常用的预训练任务主要分为三类,包括语言建模(LanguageModeling,LM)、去噪......
  • XGBoost模型构建+SHAP解析-Python代码——用XGBoost模型实现机器学习并进行黑箱过程解
    一、XGBoost模型简介1.1适用范围XGBoost(ExtremeGradientBoosting)是一个基于梯度提升(GradientBoosting)框架的增强算法,广泛应用于分类、回归、排序等任务。常见的应用包括:信用风险评估销售预测病毒检测图像识别1.2原理XGBoost是梯度提升树(GradientBoostedDecisionTree......
  • 决策树模型构建+调参Python代码——用决策树模型实现机器学习
    一、决策树模型简介1.1适用范围决策树模型(DecisionTree)可以用于分类和回归任务,广泛应用于以下领域:客户细分信用风险评估医疗诊断营销策略优化1.2原理决策树是一种树形结构的预测模型,通过一系列的特征测试(即节点的分裂)将数据集逐步划分,从而形成一个树状的决策路径。每个节......
  • 大型语言模型的 MOE 和 MOA
    AI生成   欢迎来到雲闪世界。大型语言模型(LLM)无疑席卷了科技行业。它们的迅速崛起得益于来自维基百科、网页、书籍、大量研究论文以及我们喜爱的社交媒体平台的用户内容的大量数据。数据和计算密集型模型一直在狂热地整合来自音频和视频......
  • Datawhale AI 夏令营——CPU部署大模型(LLM天池挑战赛)——Task2与3学习笔记
        Task2的任务是组队+寻找灵感,这里不作阐述;Task3的任务是实现RAG应用,阅读文档并观看卢哥的直播后,结合个人经验做个分享。    运行大语言模型,对LLM使用的加深,我们发现,在使用过程中,大模型会有很多幻觉出现。为了解决幻觉,科研人员提出了各种各样的方案......