首页 > 其他分享 >记一次服务器Cuda驱动崩溃修复过程

记一次服务器Cuda驱动崩溃修复过程

时间:2023-10-21 16:31:49浏览次数:35  
标签:10.1 kernel amd64 Cuda 243 nvidia 修复过程 服务器 automatic

基本过程

今天实验室师兄在服务器运行深度学习训练时候得到报错CUDA initialization: Unexpected error from cudaGetDeviceCount()疑似Cuda与NVIDIA显卡驱动沟通中出现了问题,使用nvidia-smi指令时提示Failed to initialize NVML: Driver/library version mismatch,经过沟通了解到,重启与重新配置Cuda环境均未能解决上述问题。

根据社区类似问题的帖子下工程师的指引,使用nvidia-bug-report.sh输出了报错的基本日志,得到如下关键信息

Oct 21 06:40:46 ubuntu-C621-WD12-IPMI kernel: [676742.295632] NVRM: API mismatch: the client has the version 535.113.01, but Oct 21 06:40:46 ubuntu-C621-WD12-IPMI kernel: [676742.295632] NVRM: this kernel module has the version 525.105.17. Please Oct 21 06:40:46 ubuntu-C621-WD12-IPMI kernel: [676742.295632] NVRM: make sure that this kernel module and all NVIDIA driver Oct 21 06:40:46 ubuntu-C621-WD12-IPMI kernel: [676742.295632] NVRM: components have the same version.

定位基本问题为Cuda版本可能有自动更新,因此跟进/var/log/apt/history.log中,找到关于NVIDIA相关的信息

Install: nvidia-profiler:amd64 (10.1.243-3, automatic), nvidia-cuda-toolkit:amd64 (10.1.243-3), nvidia-visual-profiler:amd64 (10.1.243-3, automatic), nvidia-cuda-dev:amd64 (10.1.243-3, automatic), nvidia-cuda-doc:amd64 (10.1.243-3, automatic), nvidia-cuda-gdb:amd64 (10.1.243-3, automatic) Upgrade: libnvidia-compute-535:amd64 (535.113.01-0ubuntu0.20.04.1, 535.113.01-0ubuntu0.20.04.3)

因此基本可以断定这次出错是由cuda-toolkit更新连带引起的

解决方案

先尝试通过将libnvidia-compute-535版本降到525版本,发现小版本号依然对不上(之前运维没有及时更新),所以考虑将kernel版本升级到535版本

首先运行sudo apt purge nvidia* libnvidia*准备重新安装,然后运行sudo apt install nvidia-driver-535,再次运行nvidia-smi,问题得解。

思考

在生产环境中应当尽可能避免做敏感升级和安装行为,在安装前最好检查一下要求的工具链,提前做好准备工作

标签:10.1,kernel,amd64,Cuda,243,nvidia,修复过程,服务器,automatic
From: https://blog.51cto.com/u_15567308/7968206

相关文章

  • Redis服务器部署
    Redis(全称:RemoteDictionaryServer远程字典服务)是一个开源的使用ANSIC语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。从2010年3月15日起,Redis的开发工作由VMware主持。从2013年5月开始,Redis的开发由Pivotal赞助。Redis是一个开源的......
  • 服务器图形界面配置
    参考:https://www.xiexianbin.cn/linux/vnc/turbovnc/index.html一、安装TurboVNCaptupdate&&aptinstall-ylibglu1-mesa-devmesa-utilsxtermxauthx11-xkb-utilsxfonts-basexkb-datalibxtst6libxv1#安装libjpeg-turbo和turbovncexportTURBOVNC_VERSION=2.2......
  • linux日志服务器部署
    集中式日志服务器介绍如果你负责管理数台的Linux,你得登录每一台Linux后,才能阅读其中的信息!这样是不是很麻烦??那有没有什么更好的方案呢?Linux的系统日志服务,允许你把信息传递到某一台Linux的系统日志服务中;那你就可以把一台Linux作为日志服务器(LogServer),而其他的Linux......
  • 部署linux网络安装服务器
    一、批量部署概述什么是PXE预启动执行环境(PXE)是由Intel公司开发的最新技术,工作于Client/Server的网络模式,支持工作站通过网络从远端服务器下载映像,并由此支持通过网络启动操作系统,在启动过程中,终端要求服务器分配IP地址,再用TFTP(trivialfiletransferprotocol)或MTFTP(multicast......
  • SQL SERVER跨服务器查询
    1.执行存储过程sp_addlinkedserver以将服务器添加到sys.servers-server124为远程服务器的别名execsp_addlinkedserver'server124','','SQLOLEDB','远程服务器名或ip地址'execsp_addlinkedsrvlogin'server124','false',null,......
  • 无法访问。你可能没有权限使用网络资源。请与这台服务器的管理员联系以查明你是否有
     无法访问。你可能没有权限使用网络资源。请与这台服务器的管理员联系以查明你是否有访问权限连到系统上的设备没有发挥作用弹出提示界面如下下: 解决办法,进入cmd--> gpedit.msc,改注册表:  记得重启电脑 ......
  • laravel:部署到nginx服务器(10.27.0)
    一,相关文档:https://learnku.com/docs/laravel/10.x/deployment/14840二,配置nginx1,站点文件server{listen80;#listen[::]:80;server_namedig.lhdtest.com;root/webdata/site/dig/public;add_headerX-Frame-Options"SAMEORIGIN";a......
  • Windows Server服务器下的Linux子系统
    Windows、Linux看似死敌一对,但其实微软对于开源实业还是相当支持的,Windows10系统内就首次内置了一个Linux子系统(WindowsSubsystemforLinux/WSL),允许开发者模拟Linux环境,而且有需要的可以直接从Windows应用商店下载SUSE、Ubuntu。今天,微软又首次推出了用于WindowsSer......
  • 上传超大文件到云端服务器
    一直以来,通过互联网传送超大文件都是个麻烦事,传统的SSH/FTP工具只适合传输不太大的文件和目录,遇到上G的文件经常会出现传输错误,常用手段如百度云在Linux服务器上没法使用,一些专业传输软件需要在服务端安装开端口,而我们日常遇到的超大文件越来越多,linux的安装包要几个G,docker镜像要......
  • 游戏服务器性能压测实战分析
    今天遇到一个性能压测的问题,也是很多同学做游戏服务器开发经常会遇到的,今天记录一下分享给大家。 性能压测遇到的问题 服务器硬件情况: 8核16G服务器,  带宽1000M,redis假设在独立的内网云服务上,通过内网连接;性能压测:压测功能接口1: 查询当前服务器的时间戳,并返......