首页 > 其他分享 >k8s DCGM GPU采集指标项说明

k8s DCGM GPU采集指标项说明

时间:2023-05-02 18:22:43浏览次数:39  
标签:utilization violation DCGM us pcie dcgm GPU k8s

dcgm-exporter 采集指标项

指标 解释
dcgm_fan_speed_percent GPU风扇转速占比(%)
dcgm_sm_clock GPU sm 时钟(MHz)
dcgm_memory_clock GPU 内存时钟(MHz)
dcgm_gpu_temp GPU 运行的温度(℃)
dcgm_power_usage GPU 的功率(w)
dcgm_pcie_tx_throughput GPU PCIeTX 传输的字节总数 (kb)
dcgm_pcie_rx_throughput GPU PCIeRX 接收的字节总数 (kb)
dcgm_pcie_replay_counter GPU PCIe重试的总数
dcgm_gpu_utilization GPU 利用率(%)
dcgm_mem_copy_utilization GPU 内存利用率(%)
dcgm_enc_utilization GPU 编码器利用率(%)
dcgm_dec_utilization GPU 解码器利用率(%)
dcgm_xid_errors GPU 上一个xid错误的值
dcgm_power_violation GPU 功率限制导致的节流持续时间(us)
dcgm_thermal_violation GPU 热约束节流持续时间(us)
dcgm_sync_boost_violation GPU 同步增强限制,限制持续时间(us)
dcgm_fb_free GPUfb(帧缓存)的剩余(MiB)
dcgm_fb_used GPUfb(帧缓存)的使用(MiB)

标签:utilization,violation,DCGM,us,pcie,dcgm,GPU,k8s
From: https://www.cnblogs.com/niuben/p/17368014.html

相关文章

  • 值得收藏:K8S的kubectl常用命令已经按场景分好类,请您查阅。
    kubectl知多少kubectl是K8S中的一个命令行工具,主要用于管理和操作K8S集群。kubectl通过向K8SAPI发送REST请求,允许用户与K8S集群中的各种资源进行交互,例如Pod、Service、Deployment等。kubectl提供了一种简单而灵活的方式来管理和操作K8S集群,它支持交互式和批处......
  • 论文阅读-sparse gpu kernels for deep learning
    论文地址:https://ieeexplore.ieee.org/document/9355309源码地址:https://github.com/google-research/sputnik背景深度神经网络由大量的矩阵乘法运算和卷积运算组成,这些运算中使用的矩阵可以转化成稀疏矩阵,同时不损失模型的精度。这样就可以在准确率不变的情况下提升浮点运算效......
  • 云原生第二周--使用kubeasz部署多master的k8s集群
    1k8s集群介绍1.1k8s单master架构单master节点的架构,通常只用于测试环境,生产环境绝对不允许;这是因为k8s集群master的节点是单点,一旦master节点宕机,将导致整个集群不可用;其次单master节点apiServer是性能瓶颈;从上图我们就可以看到,master节点所有组件和node节点中的kubel......
  • K8s报错:[preflight] WARNING: JoinControlPane.controlPlane settings will be ignore
    一、报错信息[preflight]WARNING:JoinControlPane.controlPlanesettingswillbeignoredwhencontrol-planeflagisnotset.[preflight]Runningpre-flightcheckserrorexecutionphasepreflight:[preflight]Somefatalerrorsoccurred:[ERRORFileAvailabl......
  • Kubernetes(K8S) kubesphere 介绍
    使用Kubeadm部署Kubernetes(K8S)安装--附K8S架构图Kubernetes(K8S)kubesphere安装官网地址:https://kubesphere.com.cn/KubeSphere是个全栈的Kubernetes容器云PaaS解决方案KubeSphere是在目前主流容器调度平台Kubernetes之上构建的企业级分布式多租户容器平台,提供简单易......
  • Pytorch2 如何通过算子融合和 CPU/GPU 代码生成加速深度学习
    动动发财的小手,点个赞吧!PyTorch中用于图形捕获、中间表示、运算符融合以及优化的C++和GPU代码生成的深度学习编译器技术入门计算机编程是神奇的。我们用人类可读的语言编写代码,就像变魔术一样,它通过硅晶体管转化为电流,使它们像开关一样工作,并允许它们实现复杂的逻辑——这......
  • 【GPU基础问题】GPU内存占用率很高利用率很低
    前言 问题描述查看nvidia-smi,发现显存占比很高,但是GPU-Util(GPU利用率)很低,在3%、7%、11%等几个参数之间反复跳动。watch-n0.5nvidia-smi也就是显卡并没有完全利用起来,导致训练很慢。原因分析GPU内存占用率(memoryusage) GPU内存利用率(volatileGPU-Util)  ......
  • 上篇:带你手工体验从写代码、编译、打包镜像、部署到K8S的全过程
    本篇使用的gowebdemo,页面很简单,功能也是很简单,写代码不是本篇的重点,重点是先体验一下整个流程:开发环境准备、写代码、提交到仓库、拉取代码构建并打包镜像、推送到镜像仓库,部署到K8S。本篇的分享分为上篇和下篇,上篇是手动,计划在下篇再讲自动。只有手动体验过,才能更能深入的理......
  • 【动手学深度学习】第五章笔记:层与块、参数管理、自定义层、读写文件、GPU
    为了更好的阅读体验,请点击这里由于本章内容比较少且以后很显然会经常回来翻,因此会写得比较详细。5.1层和块事实证明,研究讨论“比单个层大”但“比整个模型小”的组件更有价值。例如,在计算机视觉中广泛流行的ResNet-152架构就有数百层,这些层是由层组(groupsoflayers)的重复模......
  • nginx 正则反向代理到k8s
    代码:nginx正则反向代理到k8s的服务:http{resolverkube-dns.kube-system.svc.cluster.local;server{listen80;#serviceslocation~/(\w+)/{ proxy_passhttp://$1.default.svc.cluster.local:8888;}}配置:  ......