首页 > 其他分享 >记一次服务器Cuda驱动崩溃修复过程

记一次服务器Cuda驱动崩溃修复过程

时间:2023-10-30 17:03:41浏览次数:33  
标签:10.1 kernel amd64 Cuda 243 nvidia 修复过程 服务器 automatic


基本过程

今天实验室师兄在服务器运行深度学习训练时候得到报错CUDA initialization: Unexpected error from cudaGetDeviceCount()疑似Cuda与NVIDIA显卡驱动沟通中出现了问题,使用nvidia-smi指令时提示Failed to initialize NVML: Driver/library version mismatch,经过沟通了解到,重启与重新配置Cuda环境均未能解决上述问题。

根据社区类似问题的帖子下工程师的指引,使用nvidia-bug-report.sh输出了报错的基本日志,得到如下关键信息

Oct 21 06:40:46 ubuntu-C621-WD12-IPMI kernel: [676742.295632] NVRM: API mismatch: the client has the version 535.113.01, but
Oct 21 06:40:46 ubuntu-C621-WD12-IPMI kernel: [676742.295632] NVRM: this kernel module has the version 525.105.17. Please
Oct 21 06:40:46 ubuntu-C621-WD12-IPMI kernel: [676742.295632] NVRM: make sure that this kernel module and all NVIDIA driver
Oct 21 06:40:46 ubuntu-C621-WD12-IPMI kernel: [676742.295632] NVRM: components have the same version.

定位基本问题为Cuda版本可能有自动更新,因此跟进/var/log/apt/history.log中,找到关于NVIDIA相关的信息

Install: nvidia-profiler:amd64 (10.1.243-3, automatic), nvidia-cuda-toolkit:amd64 (10.1.243-3), nvidia-visual-profiler:amd64 (10.1.243-3, automatic), nvidia-cuda-dev:amd64 (10.1.243-3, automatic), nvidia-cuda-doc:amd64 (10.1.243-3, automatic), nvidia-cuda-gdb:amd64 (10.1.243-3, automatic)
Upgrade: libnvidia-compute-535:amd64 (535.113.01-0ubuntu0.20.04.1, 535.113.01-0ubuntu0.20.04.3)

因此基本可以断定这次出错是由cuda-toolkit更新连带引起的

解决方案

先尝试通过将libnvidia-compute-535版本降到525版本,发现小版本号依然对不上(之前运维没有及时更新),所以考虑将kernel版本升级到535版本

首先运行sudo apt purge nvidia* libnvidia*准备重新安装,然后运行sudo apt install nvidia-driver-535,再次运行nvidia-smi,问题得解。

思考

在生产环境中应当尽可能避免做敏感升级和安装行为,在安装前最好检查一下要求的工具链,提前做好准备工作


标签:10.1,kernel,amd64,Cuda,243,nvidia,修复过程,服务器,automatic
From: https://blog.51cto.com/u_15567308/8095438

相关文章

  • SQL Server数据库创建远程服务器备份计划(小白详细图文教程)
    一、前言最近项目系统做安全加固,以前是本地备份,现在需要做远程内网服务器数据库备份,后期也有可能做异地备份。下面以SQLServer2016内网服务器数据库备份为例,数据库服务器地址:192.168.10.200备份服务器地址:192.168.10.100二、创建存储文件夹192.168.10.100远程100服务器,创建......
  • 保护Linux服务器安全的四个要点!
    Linux服务器是当前互联网中最常用的服务器操作系统之一,但由于其开源特性以及高度自定义的设定,相比于其他操作系统来说更需要额外的安全保障,本篇文章将为大家介绍一些常见的安全手段,以帮助你更好地保护Linux系统。请看下文:一、增强安全防护工具SSH是安全套接层的简称,它......
  • 记一次ubuntu服务器挂载磁盘挂载操作记录
    操作背景:服务器重启后,/OPT目录下的数据全部不见了。排查是数据盘没有成功挂载导致。推断之前是临时挂载,未配置到挂载信息配置文件导致。操作目的:配置挂载信息,以后重启也会自动挂载。开始配置:查看设备UUID使用命令:blkid查看设备:/dev/vdb或者使用命令:ls-l/dev/disk/by-uuid......
  • 美国服务器的安全措施有哪些
    保护美国服务器的安全至关重要,以下是一些常见的安全措施:防火墙:配置防火墙以限制入站和出站流量,只允许经过授权的流量通过。防火墙可以阻止恶意入侵。定期更新:及时更新操作系统、服务器软件和应用程序以修补已知的安全漏洞。保持系统和软件最新对抵御潜在的安全威胁非常重要。强密码......
  • Ubuntu 服务器 /var/log/messages 文件没内容
    记录以下Ubuntu服务器的messages日志文件问题的处理我的服务器版本是Ubuntu22.04。默认是没有开启系统运行日志记录的,这一点无疑是个巨大的安全隐患,系统出了问题都无从查起。第一步开启/var/log/messages日志文件配置#vim/etc/rsyslog.d/50-default.conf...*.=info;*.=......
  • 机房WSUS服务器搭建方案-服务器操作
    服务器操作打开管理工具中的WSUS管理控制台,完成以下有关操作同步更新建立计算机(命名组名XPCLENT)审批更新选项设置......
  • 阿贝云服务器
    阿贝云服务器 现在,我用阿贝云已经有三个月了,我有话要说:1.阿贝云提供免费服务器,而且阿贝云的免费服务器提供免费延期服务;2.阿贝云的免费服务器性能好,而且网站的访问速度很快。总之,我们希望继续支持阿贝云,让阿贝云做的更好!  网址:http://www.abeiyun.com ​​​......
  • 三f云免费云服务器的使用体验
    在网上看到了三f云主机的介绍,想着试试看就注册了账号搞了一个免费云服务器试试,怎么说呢,作为一个新手,之前完全没有接触过云服务器,使用了三f云的免费云服务器,整个过程非常简单,很快就可以完成服务器的设置和部署。官方也提供了带面板的和纯净的centos,对于我来说还是挺方便的,而且我是......
  • 假如我有一台服务器,我会让它提供三种服务
    一、提供照片上传、存储和下载服务随着移动互联网时代的持续快速发展,PC互联网日益势微,各大互联网门户网站的博客、空间也跟着凋零, 作为博客、空间的标配功能的相册也随之被关闭。2019年3月6日网易相册发布停运公告并于当年5月8日正式停止的运营。 就在网易相册停止运营的同一天,新......
  • 记一次云服务器 CPU 爆满原因—被 kdevtmpfsi 挖矿病毒入侵
    目录1.问题表现2.问题解决1.问题表现突然发现云主机的CPU使用率爆满了,我寻思着我也没干啥啊,不会中病毒了吧看了下docker中的容器,多了很多不知道哪里来的东西把容器和镜像统统删光后,短暂的恢复了一下,但过一阵子,CPU又爆满了用top命令查看了自己服务器CPU运行情况......