首页 > 其他分享 >使用vllm部署大语言模型

使用vllm部署大语言模型

时间:2024-07-08 20:30:07浏览次数:19  
标签:code 部署 模型 -- json model vllm response

vLLM是一个快速且易于使用的库,用于LLM(大型语言模型)推理和服务。通过PagedAttention技术,vLLM可以有效地管理注意力键和值内存,降低内存占用和提高计算效率。vLLM能够将多个传入的请求进行连续批处理,从而提高整体处理速度。

环境

Lniux操作系统,2张3090,cuda版本是12.2
在这里插入图片描述

安装vllm

通过pip安装比较简单:

# 这里先创建一个conda虚拟环境,没安装conda也可忽略
conda create -n myenv python=3.10 -y
conda activate myenv
# 正式安装
pip install vllm

启动vllm的http服务

python3 -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 8900  --model /home/yuanll/model/Baichuan2-13B-Chat-lora-merge --trust-remote-code  --tensor-parallel-size 2    --gpu-memory-utilization 0.90

参数解释

  • host和port指定监听的地址和端口
  • –model指定模型路径
  • –tensor-parallel-size指定显卡数量
  • –gpu-memory-utilization指定显存占用比例

访问服务

POST访问的url: http://10.20.xx.xx:8900/v1/completions
IP替换成实际的就行。json参数

{
 "prompt": "你好",
 "model": "/home/xxx/model/Baichuan2-13B-Chat-lora-merge",
 "max_tokens": 1024,
 "stream": false
}

测试代码

import requests
import json

url = "http://10.20.xx.xx:8900/v1/completions"

data = {
 "prompt": "你好",
 "model": "/home/xxx/model/Baichuan2-13B-Chat",
 "max_tokens": 512,
#  "temperature": 0.2,
#  "top_k": 5,
#  "top_p": 0.95,
 "stream": False
}

response = requests.post(url, json=data, stream=True)
if response.status_code != 200:
    print(f"failed:status_code={response.status_code}")
else:
    json_response=json.loads(response.text)
    print(f"json_response:{json_response}")
    result_str=json_response["choices"][0]["text"]
    print(f"result_str:{result_str}")

post请求的body中的"model"字段值,需要与启动ttp服务指定的model字段一致。

参考资料

vllm github

vllm在线文档

标签:code,部署,模型,--,json,model,vllm,response
From: https://blog.csdn.net/yuanlulu/article/details/140276807

相关文章

  • 大模型如何提升训练效率
    一、问题背景随着AIGC领域的兴起,各大厂商都在训练和推出自研的大模型结构,并结合业务进行落地和推广。在大模型分布式训练场景中,主流的主要是基于英伟达GPU进行训练(如A100),如何有效地压榨GPU的计算能力,提升训练效率,降低训练成本,是一个非常重要的实践优化问题。1.1直接目标最直接......
  • 快手开源中英双语文本生成图像模型Kolors;漫画翻译工具Comic Translate;支持谷歌搜索、
    ✨1:KolorsKolors是基于潜在扩散的大规模中英双语文本生成图像模型。Kolors是由快手的Kolors团队开发的一种基于潜在扩散的文本到图像生成模型。它经过了数十亿对文本和图像数据的训练,在视觉质量、复杂语义准确性以及中文和英文文本渲染方面都表现出显著的优势。Kolo......
  • 生成扩散模型漫谈(四):DDIM = 高观点DDPM
    相信很多读者都听说过甚至读过克莱因的《高观点下的初等数学》这套书,顾名思义,这是在学到了更深入、更完备的数学知识后,从更高的视角重新审视过往学过的初等数学,以得到更全面的认知,甚至达到温故而知新的效果。类似的书籍还有很多,比如《重温微积分》、《复分析:可视化方法》等。回到......
  • 生成扩散模型漫谈(一):DDPM = 拆楼 + 建楼
    说到生成模型,VAE、GAN可谓是“如雷贯耳”,本站也有过多次分享。此外,还有一些比较小众的选择,如flow模型、VQ-VAE等,也颇有人气,尤其是VQ-VAE及其变体VQ-GAN,近期已经逐渐发展到“图像的Tokenizer”的地位,用来直接调用NLP的各种预训练方法。除了这些之外,还有一个本来更小众的选择——扩......
  • 生成扩散模型漫谈(二):DDPM = 自回归式VAE
    在文章《生成扩散模型漫谈(一):DDPM=拆楼+建楼》中,我们为生成扩散模型DDPM构建了“拆楼-建楼”的通俗类比,并且借助该类比完整地推导了生成扩散模型DDPM的理论形式。在该文章中,我们还指出DDPM本质上已经不是传统的扩散模型了,它更多的是一个变分自编码器VAE,实际上DDPM的原论文中也......
  • 生成扩散模型漫谈(三):DDPM = 贝叶斯 + 去噪
    到目前为止,笔者给出了生成扩散模型DDPM的两种推导,分别是《生成扩散模型漫谈(一):DDPM=拆楼+建楼》中的通俗类比方案和《生成扩散模型漫谈(二):DDPM=自回归式VAE》中的变分自编码器方案。两种方案可谓各有特点,前者更为直白易懂,但无法做更多的理论延伸和定量理解,后者理论分析上更加......
  • AI生成未来 | 大语言模型的前世今生:万字长文完整梳理所有里程碑式大语言模型(LLMs)
    本文来源公众号“AI生成未来”,仅用于学术分享,侵权删,干货满满。原文链接:大语言模型的前世今生:万字长文完整梳理所有里程碑式大语言模型(LLMs)本篇博客全面汇总了大型语言模型(LLMs)。从早期的预训练神经语言模型开始,探讨了它们的起源和发展。重点讨论了Transformer架构及其三个主......
  • 2024全球数字经济大会:大模型时代下DataOps驱动企业数智化升级
    7月5日,以“开源生态筑基础,数字经济铸未来”为主题的2024全球数字经济大会在北京成功举办,来自全国各地的专家学者、企业代表、数据库行业从业人士及众多开源开发者,共聚一堂,共同探讨开源数据库技术的发展现状与未来趋势,助力构建开放、共赢的数据库生态体系,为开源生态的繁荣发展添砖......
  • 大语言模型的应用探索—AI Agent初探!
    前言大语言模型的应用之一是与大语言模型进行聊天也就是一个ChatBot,这个应用已经很广泛了。接下来的一个应用就是AIAgent。AIAgent是人工智能代理(ArtificialIntelligenceAgent)的概念,它是一种能够感知环境、进行决策和执行动作的智能实体,通常基于机器学习和人工智能技术,具备......
  • 从数据到洞察:DataOps加速AI模型开发的秘密实践大公开!
    作者|代立冬,白鲸开源科技联合创始人&CTO引言在AI驱动的商业世界中,DataOps作为连接数据与洞察的桥梁,正迅速成为企业数据战略的核心。在WOT全球技术创新大会2024·北京站,白鲸开源联合创始人&CTO代立冬在「大数据技术与基础设施」专场深入分析DataOps的核心理念、AI大模型开......