首页 > 其他分享 >如何验证 GPU 模块是否正常?

如何验证 GPU 模块是否正常?

时间:2023-06-25 10:00:51浏览次数:44  
标签:grep 验证 gpu 模块 nvidia GPU 节点 运行

如何验证 GPU 模块是否正常?

 

    1. gpu 节点上,运行 nvidia-smi 能正常返回并识别出 GPU 的型号等信息; 通过 ls -la /dev/ | grep nvidia 能看到 nvidia0 等的 GPU 设备。
    2. gpu 节点上,运行 docker info | grep Runtimes 查看默认的 runtime 是否为 nvidia runc
    3. gpu 节点上,运行 docker run -it --rm -e NVIDIA_VISIBLE_DEVICES=all nginx nvidia-smi 能正常返回并识别出 GPU 的型号等信 息(这里的 nginx 可以替换为其他非 alpine/busybox 类型的镜像)
    4. 在集群 master 节点,运行 kubectl get node -o yaml | grep 'nvidia.com/gpu:' 能识别出 gpu 资源,并且数量和宿主机匹配
    5. 在集群 master 节点,运行 kubectl get po -n kube-system -o wide| grep nvidia-device-plugin 能发现所有 gpu 节点的 nvidia-device-plugin pod 都存在并处于运行状态
    6. 在集群 master 节点,运行 kubectl get po -n kube-system -o wide| grep exporters-gpu-gpu 能发现所有节点的 exporters-gpu-gpu pod 都存在并处于运行状态
    7. 安装完平台的 GPU 插件后,能看到 GPU 的监控信息
    8. 通过 clever 平台运行 GPU 任务,能正常运行,并显示 GPU 监控信息

标签:grep,验证,gpu,模块,nvidia,GPU,节点,运行
From: https://www.cnblogs.com/zuoyang/p/17502200.html

相关文章

  • JoinableQueue模块
    JoinableQueue模块案例博客:【1.0】知识点小结(进程相关)-Chimengmeng-博客园(cnblogs.com)JoinableQueue是Python中的一个线程安全的队列它是Queue.Queue类的子类可以在多线程环境下使用。JoinableQueue提供了额外的方法,使得任务管理更加便捷。JoinableQueue的主要特......
  • struct模块
    struct模块案例详见:(4)socket套接字使用模版-Chimengmeng-博客园(cnblogs.com)struct.pack()是Python内置模块struct中的一个函数它的作用是将指定的数据按照指定的格式进行打包,并将打包后的结果转换成一个字节序列(bytestring)可以用于在网络上传输或者储存于文件中。......
  • python入门(七):函数和模块
    Python函数和模块指南原文|大纲|首页在Python中,函数和模块用于组织和重用代码。函数允许将一段代码封装为可执行的块,并在需要时调用,而模块则允许将相关的函数和变量组织在一起。了解Python的函数和模块对于编写可维护和可扩展的代码至关重要。函数(Function)函数是一个带......
  • Python random模块
    Pythonrandom模块random模块用于生成随机数importrandomprint(random.random())print(random.randint(1,100))print(random.randrange(1,100))输出结果:0.182467957909153044666randint和randrange的区别##########randint##########defrandint(self,......
  • Python configparser模块
    Pythonconfigparser模块用于生成和修改常见配置文档,当前模块的名称在python3.x版本中变更为configparser。常见文档格式如下[DEFAULT]ServerAliveInterval=45Compression=yesCompressionLevel=9ForwardX11=yes[bitbucket.org]User=hg[topsecret.se......
  • Python json和pickle模块
    json和pickle模块用于序列化的两个模块序列化模块:json和picklejson,用于字符串和python数据类型间进行转换pickle,用于python特有的类型和python的数据类型间进行转换Json模块提供了四个功能:dumps、dump、loads、loadpickle模块提供了四个功能:dumps、dump、loads、......
  • Python subprocess模块
    Pythonsubprocess模块subprocess模块可以执行shell命令的相关模块和函数有:os.systemos.spawn*os.popen*--废弃popen2.*--废弃commands.*--废弃,3.x中被移除以上执行shell命令的相关的模块和函数的功能均在subprocess模块中实现,并提供......
  • Python shutil模块
    Pythonshutil模块高级的文件、文件夹、压缩包处理模块将文件内容拷贝到另一个文件中,可以部分内容shutil.copyfileobj(fsrc,fdst[,length])例子importshutilf1=open("a.txt",encoding="utf-8")f2=open("b.txt","w",encoding="utf-8")shu......
  • Python os模块
    Pythonos模块os模块用于提供系统级别的操作os.getcwd()#获取当前工作目录,即当前python脚本工作的目录路径os.chdir("dirname")#改变当前脚本工作目录;相当于shell下cdos.curdir#返回当前目录:('.')os.pardir#获取当前目录......
  • Python sys模块
    Pythonsys模块sys模块用于提供对解释器相关的操作sys.argv#命令行参数List,第一个元素是程序本身路径sys.exit(n)#退出程序,正常退出时exit(0)sys.version#获取Python解释程序的版本信息sys.maxint......