首页 > 系统相关 >centos 7 下通过 conda 安装 cuda pytorch

centos 7 下通过 conda 安装 cuda pytorch

时间:2023-11-02 11:03:34浏览次数:50  
标签:x86 centos x11 nvidia pytorch 64 NVIDIA conda el7

先查看自己的linux上显卡型号:

# lspci | grep -i nvidia
04:00.0 VGA compatible controller: NVIDIA Corporation GP102 [GeForce GTX 1080 Ti] (rev a1)
04:00.1 Audio device: NVIDIA Corporation GP102 HDMI Audio Controller (rev a1)

查看是否有程序占用(如果存在占用,请停掉该程序)

# lsof | grep nvidia
nvidia-mo   443                 root  cwd       DIR              253,0        254          64 /
nvidia-mo   443                 root  rtd       DIR              253,0        254          64 /
nvidia-mo   443                 root  txt   unknown                                           /proc/443/exe

当然显卡驱动也可以这样安装:(推荐)
sudo yum install nvidia-detect 

nvidia-detect -v 

Probing for supported NVIDIA devices...
[10de:1b06] NVIDIA Corporation GP102 [GeForce GTX 1080 Ti]
This device requires the current 440.64

yum -y install kmod-nvidia

错误:nvidia-x11-drv-390xx conflicts with nvidia-x11-drv-460.39-1.el7_9.elrepo.x86_64
错误:nvidia-x11-drv-390xx conflicts with nvidia-x11-drv-libs-460.39-1.el7_9.elrepo.x86_64
错误:nvidia-x11-drv conflicts with nvidia-x11-drv-390xx-390.138-1.el7_8.elrepo.x86_64
 您可以尝试添加 --skip-broken 选项来解决该问题
** 发现 2 个已存在的 RPM 数据库问题, 'yum check' 输出如下:
dnf-4.0.9.2-1.el7_6.noarch 有缺少的需求 python2-dnf = ('0', '4.0.9.2', '1.el7_6')
orca-3.6.3-4.el7.x86_64 有缺少的需求 pyatspi

卸载冲突的包

yum remove -y nvidia-x11-drv-390xx-390.138-1.el7_8.elrepo.x86_64
yum remove -y nvidia-x11-drv-460.39-1.el7_9.elrepo.x86_64

卸载驱动:
sudo yum remove kmod-nvidia

 

# nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2018 NVIDIA Corporation
Built on Sat_Aug_25_21:08:01_CDT_2018
Cuda compilation tools, release 10.0, V10.0.130

# nvidia-smi

Failed to initialize NVML: Driver/library version mismatch

http://www.nvidia.cn/Download/Find.aspx?lang=cn

 

centos 7 下通过 conda 安装 cuda pytorch_Cuda

 

wget https://us.download.nvidia.com/XFree86/Linux-x86_64/440.64/NVIDIA-Linux-x86_64-440.64.run

 sudo chmod a+x NVIDIA-Linux-x86_64-440.64.run
./NVIDIA-Linux-x86_64-440.64.run

# nvidia-smi

 ERROR: An NVIDIA kernel module 'nvidia-drm' appears to already be loaded in your kernel. 

# sudo systemctl isolate multi-user.target
# sudo modprobe -r nvidia-drm
modprobe: FATAL: Module nvidia_drm is in use.

sudo modprobe -r nvidia-modeset

 

 # lsmod | grep nvidia.drm
nvidia_drm             43547  2
nvidia_modeset       1053327  1 nvidia_drm
drm_kms_helper        186531  1nvidia_drm
drm                   456166  5 drm_kms_helper,nvidia_drm

Run lsmod | grep nvidia.drm and see the numbers to the right of the nvidia_drm module name. The first number is simply the size of the module; the second is the use count.

If the X11 server is running and using the nvidia driver, then the nvidia_drm kernel module will most assuredly be in use. So you'll need, at the very least, switch into text console and shutdown the X11 server. Usually this can be done by stopping whichever X Display Manager service you're using (depends on which desktop environment you're using).

As the error message said, if you are running nvidia-persistenced, you'll need to stop that too before you can unload the nvidia_drm module.

 

 

kill -9 Xvnc

17080 root      20   0  519316 214832  47908 S   6.3  0.1   5421:48 Xvnc

 

 

ps aux | grep nvidia
root       443  0.0  0.0      0     0 ?        S     2020   0:00 [nvidia-modeset]
root      8197  0.0  0.0 112832   984 pts/0    S+   22:01   0:00 grep --color=auto nvidia

 



标签:x86,centos,x11,nvidia,pytorch,64,NVIDIA,conda,el7
From: https://blog.51cto.com/emanlee/8142590

相关文章

  • Windows10下用Anaconda3安装TensorFlow教程
    安装好了Anaconda3—后,运行开始菜单—>Anaconda3—>AnacondaPrompt##CPUpip3installtensorflow-ihttps://pypi.tuna.tsinghua.edu.cn/simple/##GPUpip3installtensorflow-gpu-ihttps://pypi.tuna.tsinghua.edu.cn/simple/##TESTimporttensorflowastfhello=......
  • Your shell has not been properly configured to use 'conda activate'.
     #./condaactivatepy38CommandNotFoundError:Yourshellhasnotbeenproperlyconfiguredtouse'condaactivate'.Toinitializeyourshell,run   $condainit<SHELL_NAME>Currentlysupportedshellsare: -bash -fish -tcsh -xonsh -......
  • PyTorch SAVING AND LOADING MODELS
    Saving&LoadingModelforInferenceSave/Load state_dict (Recommended)Save:torch.save(model.state_dict(),PATH)Load:model=TheModelClass(*args,**kwargs)model.load_state_dict(torch.load(PATH))model.eval()REFhttps://pytorch.org/tutorials/beginner/sa......
  • 一文读懂强化学习:RL全面解析与Pytorch实战
    在本篇文章中,我们全面而深入地探讨了强化学习(ReinforcementLearning)的基础概念、主流算法和实战步骤。从马尔可夫决策过程(MDP)到高级算法如PPO,文章旨在为读者提供一套全面的理论框架和实用工具。同时,我们还专门探讨了强化学习在多个领域,如游戏、金融、医疗和自动驾驶等的具体应用......
  • 【PyTorch 卷积】实战自定义的图片归类
    前言        卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一,它通过卷积层、池化层、全连接层等结构,可以有效地处理如时间序列和图片数据等。关于卷积的概念网络上也比较多,这里就不一一描述了。实战为主当然要从实际问题出发,用代码......
  • centos7远程ssh登录好慢啊,终于解决了
    虚拟机上装了centos7用win主机远程连接每次都很慢,一度怀疑是网卡什么的设置不对,甚至以为要重装系统,后来偶然发现是sshd_config配置问题直接修改一下其中的dns设置,vim/etc/ssh/sshd_config将UseDNSyes注释取消改为UseDNSno,并保存退出重启sshdsystemctlrestartsshd再次连......
  • Tensorflow2.X+cuda+cudnn配置指南(RTX4060+win11+Anaconda3)
    【背景】前段时间要做一个python语音识别模型,需要tf进行训练,考虑到有GPU就不用限制在CPU上了,所以尝试配置Tensorflow.系统配置为:RTX4060+win11+Anaconda3,使用python3.10配置完成。【补充建议:使用虚拟环境进行版本管理,我用anaconda创建了一个名为tf2,python=3.10的虚拟环境】......
  • 一次彻底卸载Anaconda的简便方法
    在计算机上使用Anaconda作为Python环境管理工具是一种常见的选择,但随着时间的推移,可能会遇到需要重新安装或升级Anaconda的情况。然而,彻底卸载Anaconda并不总是一件容易的事情,尤其是在旧版本上。在本文中,我将分享一种简便而可行的方法,以确保Anaconda被完全卸载,以便进行新的安装或......
  • 如何在安装 pytorch 的时候,不安装 nvidia 相关的包?
    要在安装PyTorch时避免安装与NVIDIA相关的包,可以使用以下方法:使用CPU版本的PyTorch:PyTorch提供了CPU版本,该版本不需要与NVIDIA相关的包。你可以使用以下命令安装CPU版本的PyTorch:pipinstalltorch-fhttps://download.pytorch.org/whl/cpu/torch_stable.html这将仅安装与CPU兼容......
  • 《深度学习的数学》(涌井良幸、涌井贞美著) 神经网络计算pytorch示例一
    涌井良幸、涌井贞美著的《深度学习的数学》这本书,浅显易懂。书中还用Excel示例神经网络的计算,真是不错。但光有Excel示例还是有点欠缺的,如果有代码演示就更好了。百度了半天在网上没找到别人写的,只好自己撸一个(使用python+pytorch),供同样在学习神经网络的初学者参考。(注,这是书中4-......