首页 > 其他分享 >记录TritonServer部署多模型到多GPU踩坑 | 京东云技术团队

记录TritonServer部署多模型到多GPU踩坑 | 京东云技术团队

时间:2023-10-17 16:24:17浏览次数:42  
标签:count 部署 模型 TritonServer 实例 gpu GPU 京东

一、问题是怎么发现的

部署chatglm2和llama2到一个4*V100的GPU机器上遇到问题

config.pbtxt

中设置模型分别在指定gpu上部署实例配置不生效

如以下配置为在gpu0上部署本模型,部署count=1个实例,在gpu1上部署本模型,部署count=2个实例

instance_group [ { count: 1 kind: KIND_GPU gpus: [ 0 ] },

{ count: 2

kind: KIND_GPU

gpus: [ 1 ] } ]

部署时发现,所有模型实例都会被部署到gpu0上面, 由于gpu只有16g显存,在部署第一个模型实例成功后,第二个模型实例也会往gpu0上进行加载,最终导致cuda out of memery.

网上搜索发现有人遇到同样的问题,链接: https://github.com/triton-inference-server/server/issues/6124

二、排查问题的详细过程

大佬回答解决方案:

三、如何解决问题

1.在model.py手动获取config.pbtxt配置的gpu编号gpus:[0]

instance_group [

{

count: 1

kind: KIND_GPU

gpus: [ 0 ]

}

]

2.设置可用的GPU编号

os.environ["CUDA_VISIBLE_DEVICES"] = str(device_id)

3.启动成功

四、总结反思:是否可以更快发现问题?如何再次避免等。

triton启动的使用使用 nvidia-smi -l 2 监控显卡想显存, 可以发现所有模型都在往第一个gpu,gpu[0]内加载,发现配置config.pbtxt不生效

作者:京东科技 杨建

来源:京东云开发者社区 转载请注明来源

标签:count,部署,模型,TritonServer,实例,gpu,GPU,京东
From: https://www.cnblogs.com/Jcloud/p/17769360.html

相关文章

  • 浅谈分布式事务及解决方案 | 京东物流技术团队
    1背景在讲述分布式事务的概念之前,我们先来回顾下事务相关的一些概念。1.1事务的基本概念就是一个程序执行单元,里面的操作要么全部执行成功,要么全部执行失败,不允许只成功一半另外一半执行失败的事情发生。例如一段事务代码做了两次数据库更新操作,那么这两次数据库操作要么全部执行......
  • 记录TritonServer部署多模型到多GPU踩坑 | 京东云技术团队
    一、问题是怎么发现的部署chatglm2和llama2到一个4*V100的GPU机器上遇到问题config.pbtxt中设置模型分别在指定gpu上部署实例配置不生效如以下配置为在gpu0上部署本模型,部署count=1个实例,在gpu1上部署本模型,部署count=2个实例instance\_group\[{count:1kind:KIND\_GPUgpu......
  • 记录TritonServer部署多模型到多GPU踩坑 | 京东云技术团队
    一、问题是怎么发现的部署chatglm2和llama2到一个4*V100的GPU机器上遇到问题config.pbtxt中设置模型分别在指定gpu上部署实例配置不生效如以下配置为在gpu0上部署本模型,部署count=1个实例,在gpu1上部署本模型,部署count=2个实例instance\_group\[{count:1kind:KIND\_GPUgpu......
  • k8s gpu共享
    k8sgpu共享方案1.配置环境变量实现通过在POD的启动文件中,配置NVIDIA_VISIBLE_DEVICES的环境变量,指定显卡号。NVIDIA_VISIBLE_DEVICES可配置为具体的显卡号,也可以配置allenv:-name:NVIDIA_VISIBLE_DEVICESvalue:{{GPU_ID}}2.通过aliyungpushare插件实现参考链接:h......
  • 【京东开源项目】微前端框架MicroApp 1.0正式发布
    介绍MicroApp是由京东前端团队推出的一款微前端框架,它从组件化的思维,基于类WebComponent进行微前端的渲染,旨在降低上手难度、提升工作效率。MicroApp无关技术栈,也不和业务绑定,可以用于任何前端框架。源码地址:https://github.com/micro-zoe/micro-app官网地址:https://micro-......
  • GPU实验室-在阿里云云上部署ChatGLM2-6B大模型
    实验室地址:https://developer.aliyun.com/adc/scenario/f3dc63dc55a543c3884b8dbd292adcd5一、先买机器并开通对应安全组8501端口规格族:GPU计算型gn6i实例规格:ecs.gn6i-c4g1.xlarge安全组新增规则入方向端口范围:8501/8501授权对象:0.0.0.0/0二、最好是安装系统的时候把安装nvidi......
  • MySQL的index merge(索引合并)导致数据库死锁分析与解决方案 | 京东云技术团队
    背景在DBS-集群列表-更多-连接查询-死锁中,看到9月22日有数据库死锁日志,后排查发现是因为mysql的优化-indexmerge(索引合并)导致数据库死锁。定义indexmerge(索引合并):该数据库查询优化的一种技术,在mysql5.1之后进行引入,它可以在多个索引上进行查询,并将结果合并返回。mysql数据库的......
  • 体验提升-一个“小技巧”彻底解决锦礼商品可见不可售 | 京东云技术团队
    一、背景锦礼平台,作为一家企业级B2B2C电商平台,同时服务于企业客户和企业员工,因此需要遵循企业客户的政策规范,确保商城内商品符合规定,并提升员工购物体验。然而,这种独特的运营模式导致锦礼平台上商品的可见不可售问题较为突出,对最终消费者的购物体验和平台的产品和业务产生了较大的......
  • 【交付高质量,用户高增长】-用户增长质量保证方法论 | 京东云技术团队
    前言俗话说,“测试是质量的守护者”,但单凭测试本身却远远不够。大多数情况下,测试像“一面镜子”,照出系统的面貌,给开发者提供修改代码的依据,这个“照镜子”的过程,就是质量评估的过程,或者说,测试的过程更像“量体温”,虽然可以测量出温度进而判断健康状况,却不能靠量体温治病。同时,需求交......
  • RK3568的NPU/GPU/CPU频率使用率
    1输入以下命令挂载debug,只有挂载debug才可以查看NPU/GPU/CPU频率使用率。mount-tdebugfsdebugfs/sys/kernel/debugmount|grepdebug2输入以下命令查看NPU频率:cat/sys/kernel/debug/clk/clk_scmi_npu/clk_rate3查看GPU频率,输入以下命令cat/sys/kernel/de......