首页 > 其他分享 >GPU主机常见问题——nvidia驱动失效

GPU主机常见问题——nvidia驱动失效

时间:2023-10-10 22:34:58浏览次数:38  
标签:常见问题 grub 启动 ubuntu 默认 驱动 内核 nvidia GPU

新开个坑,记录一些GPU主机的常见问题。

问题描述

某次开机后驱动无法使用,nvidia-smi显示无法连接nvidia驱动。
image

原因

如果没有关闭自动更新,ubuntu重启后可能切换内核,导致驱动失效。

确认问题

查看当前内核:

uname -a

查看已安装内核:

dpkg --get-selections |grep linux-image

看看是否存在多个内核且使用了最新的。

如果是双系统,可以开机的时候进入grub界面,然后进入高级选项,选择之前的内核
image

image

开机后输入nvidia-smi检查驱动是否正常,若正常则是内核问题,可以继续往下操作,其余问题不在本文范围内。

解决方法

为了方便起见,我将所有的自动更新都进行关闭

暂时解决——重装驱动

重装驱动可以暂时解决该问题。但是后续内核更新依然会导致驱动失效。

禁止ubuntu更新

vim /etc/apt/apt.conf.d/10periodic
vim /etc/apt/apt.conf.d/20auto-upgrades

10periodic文件为例,将后面所有数字改成0,20auto-upgrades同理
image

hold内核

可以hold内核,使其保持当前状态

输入以下指令查看现有内核:

dpkg --get-selections |grep linux-image

输入以下指令hold所需内核:

sudo apt-mark hold <kernel_version>

image

关闭软件包更新

Software & Update软件中,将自动更新关闭
image

切换内核

输入以下指令查看内核启动顺序:

gre gnulinx /boot/grub/grub.cfg

其中可以看到启动顺序分为menuentrysubmenu,编号分别为0和1,在编号为1的submenu下,还有4个条目,编号为0-3。
其实这个就对应着上文“确认问题”中的grub,其中0为第一个选项,1为第二个选项(ubuntu高级启动),而后面的0-3对应高级启动中的四个选项。
image

我们输入以下指令选择默认启动顺序:

vim /etc/default/grub

修改图示所示的内容。
默认该值为0,也就是默认从menuentry启动,我们需要修改它。以将其修改为从5.15.0-56-generic启动,即编号1的submenu中,编号为2的内核为例。
我们需要将该值修改为GRUB_DEFAULT="1> 2",注意>右侧有空格。
image

之后,我们需要更新grub,然后重启系统即可

sudo update-grub
sudo reboot

小问题

对于双系统来说,进入gurb时会发现从第一项启动依然会使用之前的内核,因为我们修改的只是默认启动的条目,并未修改每个条目对应的内核(博主也不知道如何修改)。但是光标默认停留在第二行的"ubuntu高级选项"处,如果我们回车点进该选项,会发现光标默认停留在选定的内核处。如下图所示:

光标默认在ubuntu高级选项处
image

点进去会发现光标默认在选中的内核处
image

因此,我们可以通过以下方式进入对应的内核:

  • 什么都不干,倒计时结束会默认从对应的内核启动
  • 摁两下回车,主动进入对应的内核
  • 如果想从第一条进入,可以删除多余内核,但是考虑到删除内核的风险,并未这么做

至此,该问题得到解决。

标签:常见问题,grub,启动,ubuntu,默认,驱动,内核,nvidia,GPU
From: https://www.cnblogs.com/treasurew/p/17752295.html

相关文章

  • Linux系统使用常见问题与解答
    作为一种强大而灵活的操作系统,Linux在实际使用过程中可能会遇到一些常见问题。本文旨在为大家整理和解答Linux系统使用中的常见问题,帮助读者更好地理解和应对技术挑战。无论您是Linux初学者还是有一定经验的用户,本文都能为您提供实用的解决方案和操作建议。一、安装和启动问题1.安......
  • WEBGpu最佳实践之BindGroup
    介绍在WebGPU中,资源通过GPUBindGroup结构传递给着色器,与支持它的布局定义(GPUBindGroupLayout和GPUPipelineLayout)以及着色器中绑定组的声明一起。这三者——着色器、布局和绑定组——都需要相互兼容,通常在每个阶段都需要重复信息。因此,这个API的这一方面乍一看可能感觉不必要地复......
  • 整理常见问题一死锁条件
    1、死锁的条件死锁是两个或两个以上的进程在执行过程中,由于竞争资源或进程推进顺序非法造成的阻塞现象,若无外力作用将无法推进下去。四个必要条件1)互斥条件:一个资源每次只能被一个进程使用(涉及的资源是非共享的)2)请求与保持条件:一个进程因请求资源而阻塞时,对已获得的资源保持不......
  • wireshak常见问题
    作者:零声Github分享官链接:https://www.zhihu.com/question/264811393/answer/2594036023来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。流媒体播放中,常常需要借助wireshark从TCP层面对交互过程进行分析,本文记录一些常见的TCP异常报文及其分析。......
  • ETL安装和一些常见问题
    安装ETL需要安装Kettle和JDK1,ETL我使用的是 pdi-ce-8.3.0.0-371,可以去KETTLE官网找一下或者用 https://www.ylmfwin8.com/soft/50783.html下载的8.2版本2,ETL下载完成后,解压到本地即可(不要有中文路径)3,JDK在网上找一个即可,我使用的是JAVA8(ETL版本和JDK版本应该是有对......
  • kali linux 安装nvidia驱动
    目录说实话,不知道对不对……但是确实是按照官方文档来的;补一张自己安装之后的图……说实话,不知道对不对……但是确实是按照官方文档来的;https://www.kali.org/docs/general-use/install-nvidia-drivers-on-kali-linux/补一张自己安装之后的图……感觉是使用了nvidia的驱......
  • 深入了解 GPU 互联技术——NVLINK
    随着人工智能和图形处理需求的不断增长,多GPU并行计算已成为一种趋势。对于多GPU系统而言,一个关键的挑战是如何实现GPU之间的高速数据传输和协同工作。然而,传统的PCIe总线由于带宽限制和延迟问题,已无法满足GPU之间通信的需求。为了解决这个问题,NVIDIA于2018年推出了N......
  • 成功解决WARNING: You do not appear to have an NVIDIA GPU supported by the 430.34
     https://blog.csdn.net/qq_41185868/article/details/97521492?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522169682165516800215061872%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=169682165516800215061872&......
  • windows下安装conda和安装GPU版本的tensorflow和pytorch
    windows下安装conda和安装GPU版本的tensorflow和pytorch驱动下载查看自己电脑的独立显卡型号如:NVIDIAGeForceRTX3060在查看自己电脑是否已经安装了显卡驱动,如果显卡可用,那么就是安装了驱动;否则就要到NVIDIA官网下载驱动NVIDIA驱动程序下载找到自己对应型号的显卡驱动下载......
  • [已解决] Compilation error ptxas fatal : Value ‘sm_30‘ is not defined for opti
    在用cmake编译cuda程序时,总是报Compilationerrorptxasfatal:Value‘sm_30’isnotdefinedforoption‘gpu-name’问题,也是折腾了好久,感谢这位小哥的解决方案,亲试无误,万分感谢~转载:https://blog.csdn.net/Fucking_Code0916/article/details/132429186安装tiny-cudann出......