首页 > 其他分享 >Triton+vllm

Triton+vllm

时间:2025-01-09 17:12:02浏览次数:1  
标签:Triton repository -- work model vllm

  用mindie工具benchmark测试大模型性能时,发现它要用Triton接口,原本用vllm部署的openai接口用不了。尝试用triton+vllm来部署大模型。

  原理就是使用triton做代理,用vllm做backbend推大模型。

  按照官网的指引做:

1、创建相关目录及文件

  创建目录结构,如果使用已下载的权重,则需要复制相关权重到目录内(后续在model.json中引用):

model_repository/
└── qwen72b
    ├── 1
    │   └── model.json
├── Qwen2.5-72B-Instruct
│ └── 权重文件... └── config.pbtxt
  • 其中qwen72b目录放模型相关文件,也是客户端调用时的模型名称,等同于model_name。
  • model.json内容为:
{
    "model":"/work/model_repository/qwen72b/Qwen2.5-72B-Instruct",
    "disable_log_requests": true,
    "gpu_memory_utilization": 0.5,
    "enforce_eager": true,
    "tensor_parallel_size": 8
}
    • model为模型权重位置,/work为容器内的工作目录;Qwen2.5-72B-Instruct按实际情况调整;
    • tensor_parallel_size为使用的显卡数量

config.pbtxt内容为:

backend: "vllm"

# The usage of device is deferred to the vLLM engine
instance_group [
  {
    count: 1
    kind: KIND_MODEL
  }
]

2、启动docker:在model_repository同级目录下执行(会引用${PWD}变量):

docker run --gpus all -it --net=host --rm -p 8001:8001 --shm-size=1G --ulimit memlock=-1 --ulimit stack=67108864 -v ${PWD}:/work -w /work nvcr.io/nvidia/tritonserver:24.12-vllm-python-py3 tritonserver --model-store ./model_repository

  因为使用了--net=host,服务器实际暴露了8000、8001、8002端口。注意--rm会在模型退出后删除容器。

3、客户端访问:通过8000端口访问服务器

curl -X POST localhost:8000/v2/models/vllm_model/generate -d '{"text_input": "What is Triton Inference Server?", "parameters": {"stream": false, "temperature": 0}}'

 

标签:Triton,repository,--,work,model,vllm
From: https://www.cnblogs.com/mar/p/18662513

相关文章

  • 利用 vLLM 手撸一个多模态RAG系统
    利用vLLM实现多模态RAG系统本文将深入探讨如何使用vLLM构建多模态信息检索与生成(MultimodalRAG)系统,以实现对包含文本、图像和表格的文档的有效处理和智能问答。如果您想了解更多关于自然语言处理或其他技术领域的信息,请关注我们的公众号柏企科技圈。一、多模态R......
  • vllm 安装踩坑记录
    不太确定最直接简单的安装方法是什么,可以采用如下步骤安装:环境:cuda12.2,其他库的版本可以按如下requirements文件中指定的版本更新1.从git链接下载最新的vllm本地包到自定义目录./vllm_source_code/,依次安装该目录下requirements-build.txt等多个requirements文件中的依赖库,注意......
  • [vLLM vs TensorRT-LLM] :系统调度schedule比较
    来源:oldpan原文:https://medium.com/squeezebits-team-blog/vllm-vs-tensorrt-llm-4-which-scheduler-wins-2dc15283522a前言Transformer和LLMs的时代正在蓬勃发展。除了模型架构的演变之外,工作负载变得愈发动态化,使得系统级优化与模型级优化同等重要(类似于单一的视觉模型......
  • [vLLM vs TensorRT-LLM]:采样方法对两者性能的影响
    来源:oldpan来自:https://medium.com/squeezebits-team-blog/vllm-vs-tensorrt-llm-3-understanding-sampling-methods-and-their-performance-impact-a8ffa5ee0245我们都知道,大型语言模型(LLMs)通过“根据上下文预测下一个token的概率分布”来生成文本。最简单的采样方法是贪......
  • 【AI安全漏洞】VLLM反序列化漏洞分析与保姆级复现(附批量利用)
    #CVE-2024-9052环境需要Linux(这里使用kali)、Anaconda首先安装Anaconda前言最好使用linux,如果使用windows可能会产生各种报错(各种各种各种!!!),最好使用Anaconda,方便独立管理虚拟机使用conda创建虚拟机、python要求3.10condacreate-nvllm_beampython=3.10-y启动该虚拟机......
  • vllm0.5.0发布多个lora模型
    环境:2张A6000的GPUvllm:0.5.0修改vllm0.5.0的cli_args.py内容:路径:minconda3/envs/python31013new/lib/python3.10/site-packages/vllm/entrypoints/openai/cli_args.py修改前代码:def__call__(self,parser,namespace,values,option_string=None):lora_list......
  • 【目标检查】YOLO系列之:Triton 推理服务器Ultralytics YOLO11
    Triton推理服务器1、引言2、Triton服务器2.1什么是TritonInferenceServer2.2将YOLO11导出为ONNX格式2.3设置Triton模型库2.3.1创建目录结构2.3.2将导出的ONNX模型移至Triton资源库2.4运行Triton推断服务器2.4.1使用Docker运行TritonInferenceServer......
  • 为了改一行代码,我花了10多天时间,让性能提升了40多倍---Pascal架构GPU在vllm下的模型推
    ChatGPT生成的文章摘要这篇博客记录了作者在家中使用Pascal显卡运行大型模型时遇到的挑战和解决方案。随着本地大型模型性能的提升,作者选择使用vllm库进行推理。然而,作者遇到了多个技术难题,需要自行编译vllm和PyTorch,以支持Pascal架构的显卡。编译过程中,作者深入研究了显卡不支持......
  • 自然语言处理:第六十九章 大模型推理框架神器 - VLLM部署篇
    本人项目地址大全:Victor94-king/NLP__ManVictor:CSDNofManVictor官方文档:WelcometovLLM!—vLLM项目地址:vllm-project/vllm:Ahigh-throughputandmemory-efficientinferenceandservingengineforLLMs写在前面:笔者更新不易,希望走过路过点个关注和赞,......
  • vLLM 推理引擎性能分析基准测试
    文章目录分析步骤案例案例描述测试数据集原始数据〇轮测试(enable-64)一轮测试(enable-128)二轮测试(enable-256)三轮测试(enable-512)四轮测试(enable-2048)五轮测试(enable-4096)六轮测试(enable-8192)七轮测试(disable-256)八轮测试(disable-512)九轮测试(disable-2048)十轮测试(disable-4......