使用 vllm 本地部署 Qwen2-7B-Instruct

时间：2024-06-07 10:01:12浏览次数：25

标签：7B Qwen2 -- Instruct pip vllm

使用 vllm 本地部署 Qwen2-7B-Instruct

0. 引言
1. 安装 vllm
2. 本地部署 Qwen2-7B-Instruct
3. 使用 Qwen2-7B-Instruct

0. 引言

此文章主要介绍使用使用 vllm 本地部署 Qwen2-7B-Instruct。

1. 安装 vllm

创建虚拟环境，

conda create -n myvllm python=3.11 -y
conda activate myvllm
pip install -U pip

安装 Ray 和 Vllm，

pip install ray

安装 Vllm，

# pip install vllm
git clone https://github.com/vllm-project/vllm.git; cd vllm
pip install ./ --no-build-isolation

安装 flash-attention，

# git clone https://github.com/Dao-AILab/flash-attention;cd flash-attention
# pip install ./ --no-build-isolation
pip install flash-attn

2. 本地部署 Qwen2-7B-Instruct

eval "$(conda shell.bash hook)"
conda activate myvllm
CUDA_VISIBLE_DEVICES=3,2,1,0
python -m vllm.entrypoints.openai.api_server --trust-remote-code --served-model-name gpt-4 --model Qwen/Qwen2-7B-Instruct --gpu-memory-utilization 0.98 --tensor-parallel-size 4 --port 8000

3. 使用 Qwen2-7B-Instruct

在这里插入图片描述

完结！

标签：7B,Qwen2,--,Instruct,pip,vllm
From： https://blog.csdn.net/engchina/article/details/139518717

NeMo训练llama2_7b(不用NeMo-Framework-Launcher)
@TOC本文介绍了NeMo如何训练llama2_7b模型1.参考链接支持的模型列表功能特性LLAMA2端到端流程(基于NeMo-Framework-Launcher)2.创建容器dockerrun--gpusall--shm-size=32g-ti-eNVIDIA_VISIBLE_DEVICES=all\--privileged--net=host-v$PWD:/home\......
CF1007B 题解
CF1007B思路显然题目要求计数$u\midA,v\midB,w\midC$。$O(n\sqrtn)$预处理出每个数的所有因数，记为集合$p_i$。容斥，记集合$a,b,c,ab,ac,bc,all$为$p_A,p_B,p_C,p_A\capp_B,p_A\capp_A,p_B\capp_C,p_A\capp_B\capp_C$。可以用bitset维护交集。首先加......
【文末附gpt升级秘笈】关于论文“7B？13B？175B？解读大模型的参数的论文
论文大纲引言简要介绍大模型（深度学习模型）的概念及其在各个领域的应用。阐述参数（Parameters）在大模型中的重要性，以及它们如何影响模型的性能。引出主题：探讨7B、13B、175B等参数规模的大模型。第一部分：大模型的参数规模定义“B”代表的意义（Billion/十亿）。解释7B、13B、175B等......
「杂题乱刷」CF1977B
题目链接CF1977B(luogu)CF1977B(codeforces)解题思路考虑通用做法。我们发现如果直接用二进制来表示的话这个数会只包含$0,1$这两个数字。发现这时阻碍我们构造的是连续的数字$1$。考虑消除连续的数字$1$。容易发现连续的数字$1$可以转化成将这一段最高位......
快速训练自己的大语言模型：基于LLAMA-7B的lora指令微调
目录1.选用工程：lit-llama2.下载工程3.安装环境4.下载LLAMA-7B模型5.做模型转换6.初步测试7.为什么要进行指令微调？8.开始进行指令微调*8.1.数据准备8.2开始模型训练8.3模型测试前言：系统：ubuntu18.04显卡：A100-80G（蹭的，嘿嘿~）（本次主要记录如何快速进行大模型......
代码革命的先锋：aiXcoder-7B模型介绍
国内开源代码大模型4月9日aiXcoder宣布正式开源其7B模型Base版，仅仅过去一个礼拜，aiXcoder-7B在软件源代码托管服务平台GitHub上的Star数已超过2k。同时跻身HuggingFace趋势榜单TOP30，令全球开发者瞩目。背后团队aiXcoder团队来自北京大学软件工程研究......
Visual Instruction Tuning
郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！37thConferenceonNeuralInformationProcessingSystems(NeurIPS2023) Abstract使用机器生成的指令跟踪数据的指令调优大语言模型（LLM）已被证明可以提高新任务的零样本能力，但这一想法在多模态领域的探索较少。......
StarCoder2-Instruct: 完全透明和可自我对齐的代码生成
指令微调是一种技术，它能让大语言模型(LLMs)更好地理解和遵循人类的指令。但是，在编程任务中，大多数模型的微调都是基于人类编写的指令(这需要很高的成本)或者是由大型专有LLMs生成的指令(可能不允许使用)。我们推出了一个叫做StarCoder2-15B-Instruct-v0.1的模型，这是第......
LLaMA-Factory 训练 Llama3-Chinese-8B-Instruct 相关报错问题解决
模型路径up主为llama中文社区模型地址https://www.modelscope.cn/models/FlagAlpha/Llama3-Chinese-8B-Instruct/summarysysinfov10032gnvcc--versioncuda11.8pythonimporttorchprint(torch.version)13.11pipinstallflash_attntimeout2下载whl报这个错......
text-generation-webui 推理模型Qwen1.5-7B-Chat相关报错问题解决
推理代码text-generation-webui推理模型Qwen1.5-7B-Chatsysinfo nvcc--versioncuda11.8importtorch>>>print(torch.__version__)1路径错误2依赖没安装ImportError:Thismodelingfilerequiresthefollowingpackagesthatwerenotfoundinyourenvironme......

使用 vllm 本地部署 Qwen2-7B-Instruct

使用 vllm 本地部署 Qwen2-7B-Instruct

0. 引言

1. 安装 vllm

2. 本地部署 Qwen2-7B-Instruct

3. 使用 Qwen2-7B-Instruct

相关文章

赞助商

阅读排行