如何验证 GPU 模块是否正常?
- gpu 节点上,运行 nvidia-smi 能正常返回并识别出 GPU 的型号等信息; 通过 ls -la /dev/ | grep nvidia 能看到 nvidia0 等的 GPU 设备。
- gpu 节点上,运行 docker info | grep Runtimes 查看默认的 runtime 是否为 nvidia runc
- gpu 节点上,运行 docker run -it --rm -e NVIDIA_VISIBLE_DEVICES=all nginx nvidia-smi 能正常返回并识别出 GPU 的型号等信 息(这里的 nginx 可以替换为其他非 alpine/busybox 类型的镜像)
- 在集群 master 节点,运行 kubectl get node -o yaml | grep 'nvidia.com/gpu:' 能识别出 gpu 资源,并且数量和宿主机匹配
- 在集群 master 节点,运行 kubectl get po -n kube-system -o wide| grep nvidia-device-plugin 能发现所有 gpu 节点的 nvidia-device-plugin pod 都存在并处于运行状态
- 在集群 master 节点,运行 kubectl get po -n kube-system -o wide| grep exporters-gpu-gpu 能发现所有节点的 exporters-gpu-gpu pod 都存在并处于运行状态
- 安装完平台的 GPU 插件后,能看到 GPU 的监控信息
- 通过 clever 平台运行 GPU 任务,能正常运行,并显示 GPU 监控信息