首页 > 其他分享 >NVIDIA-SMI has failed带来的一系列问题

NVIDIA-SMI has failed带来的一系列问题

时间:2023-06-26 17:14:20浏览次数:61  
标签:KEY GPG rockyofficial failed SMI NVIDIA docker RPM dkms

NVIDIA-SMI has failed带来的一系列问题

前沿

记实验室的小红帽服务器重启后,使用nvidia-smi出现以下问题:

  • NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

现记录解决该问题过程中遇到的坑,首先百度到的解决方案就是安装dkms组件(Dynamic Kernel Module Support),利用dkms将未编译到内核之中的Linux驱动程序进行手动编译。

但是在使用命令

yum install dkms

出现了第一个问题

Question1:缺失RPM-GPG-KEY-rockyofficial 密钥文件

  • RPM-GPG-KEY-rockyofficial 是一个RPM软件包管理系统使用的GPG密钥。RPM(Red Hat Package Manager)是一种在Linux系统中广泛使用的软件包管理工具,用于安装、升级和卸载软件包。GPG(GNU Privacy Guard)是一个用于加密和签名数据的开源工具。

    RPM-GPG-KEY-rockyofficial 可能与 Rocky Linux 发行版相关。Rocky Linux 是一个社区驱动的企业级操作系统,由原始的CentOS团队创建,旨在提供一个自由、开放和可靠的替代方案,以填补CentOS项目将在将来不再提供长期支持的空白。RPM-GPG-KEY-rockyofficial 可能是用于验证 Rocky Linux 官方软件包的数字签名的GPG密钥。

  • Failed to search for file: Failed to download gpg key for repo 'baseos': Curl error (37): Couldn't read a file:// file for file:///etc/pki/rpm-gpg/RPM-GPG-KEY-rockyofficial [Couldn't open file /etc/pki/rpm-gpg/RPM-GPG-KEY-rockyofficial]

Solution1:补全RPM-GPG-KEY-rockyofficial 密钥文件

cd /etc/pki/rpm-gpg
wget http://mirror.alwyzon.net/rockylinux/RPM-GPG-KEY-rockyofficial
#若是无法wget下载可以利用浏览器直接下载再上传到服务器
rpm --import RPM-GPG-KEY-rockyofficial

Question2:docker-ce-stable的配置不正确

补全RPM-GPG-KEY-rockyofficial 后,继续执行yum install dkms,出现了第二个问题

Solution2

#访问https://download.docker.com/linux/rhel/9,发现只存在两个目录
s390x/
source/

为此需要重新配置/etc/yum.repos.d目录下的docker-ce.repo文件中的docker-ce-stable配置

将$basearch替换成source

[docker-ce-stable]
name=Docker CE Stable - $basearch
#baseurl=https://download.docker.com/linux/rhel/$releasever/$basearch/stable
baseurl=https://download.docker.com/linux/rhel/$releasever/source/stable
enabled=1
gpgcheck=1
gpgkey=https://download.docker.com/linux/rhel/gpg

Question3

解决完源的配置问题,执行yum install dkms,出现了第3个问题,没有任何匹配: dkms

(base) [root@localhost yum.repos.d]# yum install dkms
上次元数据过期检查:0:00:12 前,执行于 2023年06月26日 星期一 04时16分37秒。
未找到匹配的参数: dkms
错误:没有任何匹配: dkms

solution3

先安装EPEL

yum install -y epel-release
1

再安装kernel-headers, kernel-devel,dkms

yum install -y kernel-headers kernel-devel dkms

结语

标签:KEY,GPG,rockyofficial,failed,SMI,NVIDIA,docker,RPM,dkms
From: https://www.cnblogs.com/hcxss/p/17506163.html

相关文章

  • 11.2.0.1 Grid Infrastructure Installation Failed at Second Nodes While Running r
     11.2.0.1GridInfrastructureInstallationFailedatSecondNodesWhileRunningroot.shDueToASMCrashCausedbylmonTimeout[ID1239123.1]--------------------------------------------------------------------------------  修改时间06-JAN-2011    ......
  • "Failed to destroy network for sandbox" 错误处理分享
    问题说明:calicopod突然报错,如下截图最后排查到containerd的cni插件有问题,官方文档说的是:如果你使用containerdv1.6.0-v1.6.3并遇到"IncompatibleCNIversions"或者"Failedtodestroynetworkforsandbox"错误,考虑更新你的CNI插件并编辑CNI配置文件(如果版本......
  • sourcetree Authentication failed
    sourcetree的git密码存在mac的钥匙串里面,需要在钥匙串里删除掉对应信息,再次打开就会让你重新输入密码,问题就解决了。参看:https://stackoverflow.com/questions/20953940/authentication-failed-to-bitbucket......
  • nvidia显卡故障记录
    问题一:描述重启后,显卡就找不到驱动,因为都采用了同一个型号显卡且安装了相同版本的驱动,故猜测可能是硬件问题排查过程lspci|grep-invidia可以看到pci号是01:00.0,通过此pci号,查看一下详细信息lspci-s01:00.0-vv通过图上的信息可以发现"!!!Unknownheadertype7......
  • pycharm中的gihub copilot中报错Sign in failed. Reason: Request signInInitiate fai
    pycharm中的gihubcopilot中报错Signinfailed.Reason:RequestsignInInitiatefailedwithmessage:getaddri无法使用问题解决方法:idea打开我们的插件settings-plugins-找到插件,点击homepage插件主页跳出的页面下载对应pycharm的github copilot版本安装问题解决......
  • Error:java: Compilation failed: internal java compiler error 的解决过程
    1.错误描述:IDEA导入一个新的项目,运行时包编译失败在这里插入图片描述2.错误原因这个错误的原因是因为JDK版本问题,有两个原因,一个是编译器版本不匹配,一个是当前项目JDK版本不支持3.解决步骤需要调整三个位置的jdk版本调整项目的jdk版本,File-->ProjectStructure-->P......
  • Error:java: Compilation failed: internal java compiler error 的解决过程
    感谢原作者:https://blog.csdn.net/weixin_42045639/article/details/1255381611.错误描述:IDEA导入一个新的项目,运行时包编译失败2.错误原因这个错误的原因是因为JDK版本问题,有两个原因,一个是编译器版本不匹配,一个是当前项目JDK版本不支持3.解决步骤需要调整三个......
  • CMake Error at /root/anaconda3/lib/cmake/Qt5Gui/Qt5GuiConfigExtras.cmake:9 (mess
     001、问题CMakeErrorat/root/anaconda3/lib/cmake/Qt5Gui/Qt5GuiConfigExtras.cmake:9(message):  Failedtofi 002、报错原因centos中没有安装opengl,安装opengl[[email protected]]#yum-yinstallmesa*freeglut*GLEW 003、再次编译[root......
  • -- Checking for curses support - Failed
     001、问题--Checkingforcursessupport-Failed 002、解决方法[[email protected]]#yum-yinstallncurses-devel 003、再次编译(解决curses报错)[[email protected]]#./configure。  ......
  • ERROR: nginx-1.22.1 installation failed.
    libraries.Youcaneitherdonotenablethemoduleorinstallthelibraries.make:***Noruletomaketarget'build',neededby'default'.Stop.make:***Noruletomaketarget'install'.Stop.================================......