NVIDIA驱动失效简单解决方案:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.
问题:准备用GPU跑模型时,提示cuda 不存在
- 第一步,打开终端,输入:
vidia-smi
1|NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver.
2|Make sure that the latest NVIDIA driver is installed and running.
- 第二步,使用
nvcc -V
检查驱动和cuda。
1|nvcc: NVIDIA (R) Cuda compiler driver
2|Copyright (c) 2005-2018 NVIDIA Corporation
3|Built on Sat_Aug_25_21:08:01_CDT_2018
4|Cuda compilation tools, release 10.0, V10.0.130
发现驱动是存在的,于是进行下一步。
- 第三步,查看已安装驱动的版本信息
1|ls /usr/src | grep nvidia
比如我的驱动版本是:nvidia-535.161.08
- 第四步,依次输入以下命令
1|sudo apt-get install dkms
2|sudo dkms install -m nvidia -v 535.161.08
发现:
1|Error! Could not locate dkms.conf file.
2|File: /usr/src/nvidia-535.161.08/dkms.conf does not exist.
这个问题可能是因为 NVIDIA 驱动的安装包不完整,或者是安装过程中某些步骤出了问题。
接下来,用命令行在 Ubuntu 22.04/20.04 上安装 Nvidia 驱动程序。
前置准备
- 首先,确保您的系统更新到最新状态。在 Ubuntu 中,可以使用以下命令进行更新:
sudo apt update && sudo apt upgrade
- 安装编译所需的包和工具(如果您还没有安装的话):
sudo apt install build-essential dkms
- 移除旧的 NVIDIA 驱动(如果已经安装):
sudo apt-get remove --purge '^nvidia-.*'
接下来开始安装
首先,打开终端窗口并使用以下命令检查 Nvidia 卡使用的驱动程序。
sudo lshw -c display
接下来,运行以下命令从默认 Ubuntu 存储库列出 Nvidia 卡的可用驱动程序。
sudo ubuntu-drivers devices
要安装推荐(recommended)的驱动程序,请运行以下命令。
sudo ubuntu-drivers autoinstall
您可以使用以下命令检查现在正在使用哪张卡:
prime-select query
如果您想使用Intel显卡,请运行以下命令:
sudo prime-select intel
要切换回 Nvidia 卡,请运行
sudo prime-select nvidia
请注意,可能需要重新启动才能使更改生效!
然后我们就可以用 nvidia-smi
查看