首页 > 其他分享 >k8s gpu共享

k8s gpu共享

时间:2023-10-16 19:22:36浏览次数:45  
标签:NVIDIA VISIBLE 显卡 gpu 共享 k8s gpushare

k8s gpu 共享方案

1.配置环境变量实现

通过在POD的启动文件中,配置NVIDIA_VISIBLE_DEVICES的环境变量,指定显卡号。NVIDIA_VISIBLE_DEVICES可配置为具体的显卡号,也可以配置all

env:
- name: NVIDIA_VISIBLE_DEVICES
  value: {{ GPU_ID }}

2.通过aliyun gpushare插件实现

参考链接:https://github.com/AliyunContainerService/gpushare-scheduler-extender
注意:gpushare scheduler负责按照显存维度为单位,在集群中去调度作业,也就是找到哪个node上的哪块GPU卡还能提供作业所需显存大小。作业pod被调度到node上,会绑定合适的GPU卡到容器内。此时调度就完成了。显卡资源不存在进程资源隔离。

k8s gpu资源隔离方案

1.阿里云cgpu

2.nvidia的MPS

3.Nvidia A100的MIG

标签:NVIDIA,VISIBLE,显卡,gpu,共享,k8s,gpushare
From: https://www.cnblogs.com/yuhaohao/p/17768163.html

相关文章

  • k8s是什么?
    1、k8s是什么?Kubernetes(简称k8s)是一个开源的容器编排和管理系统,由Google开发并维护。它可以自动化地部署、扩展和管理容器化的应用程序,使得这些应用程序可以更加高效、可靠、可伸缩地运行。Kubernetes的设计目标是使得应用程序的部署和管理变得更加简单、可靠和可扩展,从而帮助开......
  • Kubeadm安装高可用k8s 1.23.x
    Kubeadm安装高可用k8s1.23.x本篇文章参考杜宽的《云原生Kubernetes全栈架构师》,视频、资料文档等,大家可以多多支持!1.高可用架构1.1架构图Kubernetes是属于主从设备模型(Master-Slave架构),即有Master节点负责核心的调度、管理和运维,Slave节点则执行用户的程序。在Kubernetes中,主节......
  • Filebeat 采集 k8s Pod 和 Events 日志实战操作
    目录一、概述1)采集Pod日志流程介绍3)采集Events日志流程介绍二、K8s集群部署三、ElasticSearch和kibana环境部署四、Filebeat采集配置1)采集Pod日志配置2)采集Events日志配置1、创建filebeat授权token2、filebeat配置一、概述要使用Filebeat采集Kubernetes中......
  • 02 K8S API资源对象介绍01(Pod)
    一、认识YAML1.1什么是YAML官网:https://yaml.org/YAML是一种用来写配置文件的语言。JSON是YAML的子集,YAML支持整数、浮点数、布尔、字符串、数组和对象等数据类型。任何合法的JSON文档也是YANL文档,YAML语法规则:使用缩进表示层级关系,缩进不允许使用tab,只能使用空格,同一层级......
  • k8s获取所有镜像地址并推送到镜像仓库
    单个空间kubectl-ntest-systemgetdeployments-owide|awk'{print$7}'|grepregistry.test.cn>images.txttailimages.txt 所有空间kubectlgetdeployments-A-owide|awk'{print$8}'|grepregistry.test.cn>images.txtgrep-ibiti......
  • GPU实验室-在阿里云云上部署ChatGLM2-6B大模型
    实验室地址:https://developer.aliyun.com/adc/scenario/f3dc63dc55a543c3884b8dbd292adcd5一、先买机器并开通对应安全组8501端口规格族:GPU计算型gn6i实例规格:ecs.gn6i-c4g1.xlarge安全组新增规则入方向端口范围:8501/8501授权对象:0.0.0.0/0二、最好是安装系统的时候把安装nvidi......
  • 使用PasteSpider把你的代码升级到服务器的Docker/Podman上,K8S太庞大,PasteSpider极易上
    如果你的服务器的内存小于16GB,那么K8S就和你无缘了,但是你可以使用PasteSpider来实现发布你的项目到服务器上!PasteSpider是一个运维工具,使用NET编写的,部署于服务器的Docker/Podman上,他可以帮助你把你的项目发布到服务器上,支持源码模式,支持发布模式,支持一键发布!下面基于实际案例做......
  • 【转载】关于使用CUPS共享打印机的正确姿势,你可以永远告别打印驱动了
    原文:https://www.right.com.cn/forum/thread-8276397-1-1.html 发表于2023-2-1715:42|只看该作者|只看大图本帖最后由kero990于2023-2-1715:48编辑一直以来,使用CUPS作为打印服务器是论坛里流行的做法,一方面这是windows的传统弱项,另一方面也是移动打印......
  • 5、SpringMVC之域对象共享数据
    5.1、域对象简介请求域(request):一次请求范围内有效会话域(session):一次会话范围内有效应用域(application):整个应用范围内有效5.2、环境搭建5.2.1、右击project创建新module5.2.2、选择maven5.2.3、设置module名称和路径5.2.4、module初始状态5.2.5、配置打包方......
  • Linux C语言Shared Library共享库细节探究
    开发中遇到一个问题,比如有一个类库A,被类库B引用,类库B和类库A都被程序C引用。类库A中有一个全局变量G,要求同一个进程中使用的是同一个全局变量G。虽然看起来很简单,但是实际探究下来还有不少坑。如果不是类库如果AB都不是类库,而是直接引入源码编译,理论上比较方便解决。示例一p......