1、卸载现有的显卡命令:
sudo /usr/bin/nvidia-uninstall
sudo apt-get --purge remove nvidia-*
sudo apt-get purge nvidia*
sudo apt-get purge libnvidia*
最后再查看一下 是否还有显示信息
sudo dpkg --list | grep nvidia-*
如果还有一条信息显示,则需重启下服务器
reboot
2、gpu服务器关机后,输入nvidia-smi显卡显示不出来
提示NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running
操作步骤:
nvcc -V
检查驱动和cuda
ls /usr/src | grep nvidia
查看已安装驱动的版本信息 比如我的显示为nvidia-470.161.03
apt-get install dkms
下载dkms
dkms install -m nvidia -v 470.161.03
nvidia-smi
如果想实现开机自启,不再手动输入dkms install -m nvidia -v 470.161.03命令的话,需
修改开机配置文件/etc/rc.local
vim /etc/rc.local
#!/bin/sh
cd /data/sh
sh nvidia.sh &
exit 0
其中/data/sh下的nvidia.sh文件内容为:
dkms install -m nvidia -v nvidia-470.161.03
3、升级cuda版本
nvcc -V
查看版本,当前cuda版本为10.1
去官网下载需要的cuda版本https://developer.nvidia.com/cuda-toolkit-archive
例如我的显卡为515.105.01,最高支持的cuda版本为11.7
信息如下:
我去官网下载的是cuda11.7版本
nvidia的cuda官网:https://developer.nvidia.com/cuda-toolkit-archive
选择对应的操作系统
按照教程即可,先获取cuda,然后再执行run
wget https://developer.download.nvidia.com/compute/cuda/11.7.0/local_installers/cuda_11.7.0_515.43.04_linux.run
sudo sh cuda_11.7.0_515.43.04_linux.run
然后会显示出以下信息:
End User License AgreementNVIDIA Software License Agreement and CUDA Supplement toSoftware License Agreement .
Last updated : October 8 , 2021The CUDA Toolkit End User License AgreementLies to thNVIDIA CUDA Toolkit , the NVIDIA CUDA Samples , the NVIDIADisplay Driver ,
NVIDIA Nsight tools ( Visual Studio Editionand the associated documentation on
CUDA APIS,programmingmodel and development tools . If you do not agree with theterms and conditions of the license agreement .
then do notdown Load or use the softwareLast updated : October 8 , 2021PrefaceDo you accept the above EULA ? ( accept / decline / quit )
先输入accept后回车
然后跳转至下一个界面
如果你已安装过显卡驱动,则需把第一个Driver给去掉
按回车去掉后
再往下翻到Install
进行安装
下一个页面如果有的话,选择YES,如果没有出现,也不影响使用
成功后会显示安装报告信息,信息如下:
然后需要修改环境变量
vim ~/.bashrc
export PATH=/usr/local/cuda-11.7/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-11.7/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
根据安装报告信息显示出来的cuda路径,修改成实际的路径即可
立即生效
source ~/.bashrc
再次查看,发现cuda升级为11.7版本
nvcc -V
4、英伟达驱动官网:https://www.nvidia.cn/Download/index.aspx?lang=cn
5、更新英伟达驱动
5.1首先卸载掉现有的驱动
sudo /usr/bin/nvidia-uninstall
sudo apt-get --purge remove nvidia-*
sudo apt-get purge nvidia*
sudo apt-get purge libnvidia*
最后再查看一下 是否还有显示信息
sudo dpkg --list | grep nvidia-*
如果还有一条信息显示,则需重启下服务器
reboot
5.2
下载对应版本的驱动
打开官网
https://www.nvidia.cn/Download/index.aspx?lang=cn
选择对应的版本
点击搜索
然后点击下载
5.3
给权限并执行安装脚本
(替换为实际的****.run文件)
chmod +x NVIDIA-Linux-x86_64-535.104.12.run
sudo ./NVIDIA-Linux-x86_64-535.104.12.run
然后选择 Continue installction
随后耐心等待即可
然后都选择Yes
然后耐心等待
选择OK
输入命令查看驱动
nvidia-smi
成功!
6、卸载cuda
sudo apt-get purge nvidia-cuda*
sudo apt-get autoremove