首页 > 其他分享 >使用 vllm 本地部署 Qwen2-7B-Instruct

使用 vllm 本地部署 Qwen2-7B-Instruct

时间:2024-06-07 10:01:12浏览次数:11  
标签:7B Qwen2 -- Instruct pip vllm

使用 vllm 本地部署 Qwen2-7B-Instruct

0. 引言

此文章主要介绍使用 使用 vllm 本地部署 Qwen2-7B-Instruct。

1. 安装 vllm

创建虚拟环境,

conda create -n myvllm python=3.11 -y
conda activate myvllm
pip install -U pip

安装 Ray 和 Vllm,

pip install ray

安装 Vllm,

# pip install vllm
git clone https://github.com/vllm-project/vllm.git; cd vllm
pip install ./ --no-build-isolation

安装 flash-attention,

# git clone https://github.com/Dao-AILab/flash-attention;cd flash-attention
# pip install ./ --no-build-isolation
pip install flash-attn

2. 本地部署 Qwen2-7B-Instruct

eval "$(conda shell.bash hook)"
conda activate myvllm
CUDA_VISIBLE_DEVICES=3,2,1,0
python -m vllm.entrypoints.openai.api_server --trust-remote-code --served-model-name gpt-4 --model Qwen/Qwen2-7B-Instruct --gpu-memory-utilization 0.98 --tensor-parallel-size 4 --port 8000

3. 使用 Qwen2-7B-Instruct

在这里插入图片描述
在这里插入图片描述

完结!

标签:7B,Qwen2,--,Instruct,pip,vllm
From: https://blog.csdn.net/engchina/article/details/139518717

相关文章

  • NeMo训练llama2_7b(不用NeMo-Framework-Launcher)
    @TOC本文介绍了NeMo如何训练llama2_7b模型1.参考链接支持的模型列表功能特性LLAMA2端到端流程(基于NeMo-Framework-Launcher)2.创建容器dockerrun--gpusall--shm-size=32g-ti-eNVIDIA_VISIBLE_DEVICES=all\--privileged--net=host-v$PWD:/home\......
  • CF1007B 题解
    CF1007B思路显然题目要求计数\(u\midA,v\midB,w\midC\)。\(O(n\sqrtn)\)预处理出每个数的所有因数,记为集合\(p_i\)。容斥,记集合\(a,b,c,ab,ac,bc,all\)为\(p_A,p_B,p_C,p_A\capp_B,p_A\capp_A,p_B\capp_C,p_A\capp_B\capp_C\)。可以用bitset维护交集。首先加......
  • 【文末附gpt升级秘笈】关于论文“7B?13B?175B?解读大模型的参数的论文
    论文大纲引言简要介绍大模型(深度学习模型)的概念及其在各个领域的应用。阐述参数(Parameters)在大模型中的重要性,以及它们如何影响模型的性能。引出主题:探讨7B、13B、175B等参数规模的大模型。第一部分:大模型的参数规模定义“B”代表的意义(Billion/十亿)。解释7B、13B、175B等......
  • 「杂题乱刷」CF1977B
    题目链接CF1977B(luogu)CF1977B(codeforces)解题思路考虑通用做法。我们发现如果直接用二进制来表示的话这个数会只包含\(0,1\)这两个数字。发现这时阻碍我们构造的是连续的数字\(1\)。考虑消除连续的数字\(1\)。容易发现连续的数字\(1\)可以转化成将这一段最高位......
  • 快速训练自己的大语言模型:基于LLAMA-7B的lora指令微调
    目录1.选用工程:lit-llama2.下载工程3.安装环境4.下载LLAMA-7B模型5.做模型转换6.初步测试7.为什么要进行指令微调?8.开始进行指令微调*8.1.数据准备8.2开始模型训练8.3模型测试前言:系统:ubuntu18.04显卡:A100-80G(蹭的,嘿嘿~)(本次主要记录如何快速进行大模型......
  • 代码革命的先锋:aiXcoder-7B模型介绍
       国内开源代码大模型4月9日aiXcoder宣布正式开源其7B模型Base版,仅仅过去一个礼拜,aiXcoder-7B在软件源代码托管服务平台GitHub上的Star数已超过2k。同时跻身HuggingFace趋势榜单TOP30,令全球开发者瞩目。    背后团队aiXcoder团队来自北京大学软件工程研究......
  • Visual Instruction Tuning
    郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!37thConferenceonNeuralInformationProcessingSystems(NeurIPS2023) Abstract使用机器生成的指令跟踪数据的指令调优大语言模型(LLM)已被证明可以提高新任务的零样本能力,但这一想法在多模态领域的探索较少。......
  • StarCoder2-Instruct: 完全透明和可自我对齐的代码生成
    指令微调是一种技术,它能让大语言模型(LLMs)更好地理解和遵循人类的指令。但是,在编程任务中,大多数模型的微调都是基于人类编写的指令(这需要很高的成本)或者是由大型专有LLMs生成的指令(可能不允许使用)。我们推出了一个叫做StarCoder2-15B-Instruct-v0.1的模型,这是第......
  • LLaMA-Factory 训练 Llama3-Chinese-8B-Instruct 相关报错问题解决
    模型路径up主为llama中文社区模型地址https://www.modelscope.cn/models/FlagAlpha/Llama3-Chinese-8B-Instruct/summarysysinfov10032gnvcc--versioncuda11.8pythonimporttorchprint(torch.version)13.11pipinstallflash_attntimeout2下载whl报这个错......
  • text-generation-webui 推理模型Qwen1.5-7B-Chat相关报错问题解决
    推理代码text-generation-webui推理模型Qwen1.5-7B-Chatsysinfo nvcc--versioncuda11.8importtorch>>>print(torch.__version__)1路径错误2依赖没安装ImportError:Thismodelingfilerequiresthefollowingpackagesthatwerenotfoundinyourenvironme......