查看GPU(加速卡)
- 查看GPU型号
rocminfo | grep -i zifang
(zifang 表示: Z100 )
[root@worker-0 root] rocminfo | grep -i zifang
Name: ZIFANG
Name: ZIFANG
- 查看GPU使用率
- 设备及显存占用(每次显示瞬时数据,即数据截屏):
rocm-smi
# 每次显示瞬时数据(数据截屏)
[root@worker-0 root] rocm-smi
==========================System Management Interface ==========================
================================================================================
DCU Temp AvgPwr SCLK MCLK Fan Perf PwrCap VRAM% DCU%
1 47.0c 25.0W 1319Mhz 800Mhz 0.0% auto 300.0W 8% 0%
2 46.0c 24.0W 1319Mhz 800Mhz 0.0% auto 300.0W 0% 0%
3 48.0c 24.0W 1319Mhz 800Mhz 0.0% auto 300.0W 0% 0%
4 47.0c 28.0W 1319Mhz 800Mhz 0.0% auto 300.0W 0% 0%
===============================================================================
[root@worker-0 root] rocm-smi
==========================System Management Interface ==========================
================================================================================
DCU Temp AvgPwr SCLK MCLK Fan Perf PwrCap VRAM% DCU%
1 47.0c 25.0W 1319Mhz 800Mhz 0.0% auto 300.0W 8% 100%
2 46.0c 24.0W 1319Mhz 800Mhz 0.0% auto 300.0W 0% 0%
3 48.0c 24.0W 1319Mhz 800Mhz 0.0% auto 300.0W 0% 0%
4 47.0c 28.0W 1319Mhz 800Mhz 0.0% auto 300.0W 0% 0%
===============================================================================
- 动态显示GPU占用:
watch rocm-smi
# 动态显示
[root@worker-0 root] watch rocm-smi
==========================System Management Interface ==========================
================================================================================
DCU Temp AvgPwr SCLK MCLK Fan Perf PwrCap VRAM% DCU%
1 47.0c 25.0W 1319Mhz 800Mhz 0.0% auto 300.0W 8% 100%
2 46.0c 24.0W 1319Mhz 800Mhz 0.0% auto 300.0W 0% 0%
3 48.0c 24.0W 1319Mhz 800Mhz 0.0% auto 300.0W 0% 0%
4 47.0c 28.0W 1319Mhz 800Mhz 0.0% auto 300.0W 0% 0%
===============================================================================
这段输出是使用rocm-smi
命令在基于ROCm(Radeon Open Compute)环境的Linux系统上查看AMD GPU(数据计算单元DCU)的状态。下面是对输出信息的解释:
DCU:数据计算单元编号,这里从1到4,表示系统中有4个AMD GPU。
Temp:GPU的温度,单位是摄氏度(c)。这里的温度分别是47.0c、46.0c、48.0c和47.0c。
AvgPwr:GPU的平均功率,单位是瓦(W)。这里的功率分别是25.0W、24.0W、24.0W和28.0W。
SCLK:GPU的核心时钟频率,单位是兆赫兹(Mhz)。所有GPU的核心时钟频率都是1319Mhz。
MCLK:GPU的内存时钟频率,单位也是兆赫兹(Mhz)。所有GPU的内存时钟频率都是800Mhz。
Fan:风扇转速的百分比。这里所有GPU的风扇转速都是0.0%,意味着风扇可能处于停止状态或者数据未更新。
Perf:性能模式,这里是auto
,表示GPU的性能模式设置为自动调整。
PwrCap:功率上限,单位是瓦(W)。所有GPU的功率上限都是300.0W。
VRAM%:GPU显存使用率百分比。只有第一个GPU的显存使用率为8%,其他都是0%。
DCU%:GPU使用率百分比。只有第一个GPU的使用率为100%,其他都是0%。
从这些信息可以看出,系统中虽然有4个AMD GPU,但只有第一个GPU正在被使用(100% DCU%和8% VRAM%),而其他三个GPU目前处于空闲状态(0% DCU%和0% VRAM%)。所有GPU的温度和功率都在正常范围内,且性能模式设置为自动调整。风扇转速为0%可能意味着在当前的负载下,GPU不需要额外的冷却。
参考相关文章:https://www.jianshu.com/p/1d02cf5d1621
标签:auto,800Mhz,海光,查询,1319Mhz,0%,300.0,GPU,DCU From: https://www.cnblogs.com/dkblogs/p/18528421