首页 > 其他分享 >nvidia显卡故障记录

nvidia显卡故障记录

时间:2023-06-25 10:56:11浏览次数:37  
标签:nvidia driver 故障 版本 驱动 显卡 NVIDIA

问题一:

描述

重启后,显卡就找不到驱动,因为都采用了同一个型号显卡且安装了相同版本的驱动,故猜测可能是硬件问题

排查过程

lspci |grep -i nvidia

可以看到pci号是01:00.0, 通过此pci号,查看一下详细信息

lspci -s 01:00.0 -vv

通过图上的信息可以发现"!!! Unknown header type 7f" , 通过英伟达的网站上查询,大致解释为:PCIe从BUS上脱落导致
lspci -s 01:00.0 -b 可以看到如下信息,未赋值的类地址是ffff,无效地址

通过命令ubuntu-driver devices 可以看到推荐的当前显卡驱动为470版本

而当前系统所使用的驱动版本,如下, 和推荐的版本 一致,基本认为是显卡本身存在一些缺陷导致从总线脱落或者电压不足

问题原因

根据英伟达网站显示,判定是显卡自身故障

问题二:

描述

联想笔记本P15V
nvidia-smi命令报错如下:
NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running

这是一个常见问题,经常出现在ubuntu系统中,主要原因还是系统内核升级了,导致新版本内核和原来显卡驱动不匹配

排查步骤

执行命令cat /proc/driver/nvidia/version查看驱动版本,文件不存在
ubuntu-driver devices查看当前驱动版本是510 , 推荐的是470
卸载了510之后 安装470 提示输入secrure boot密码, 应该是bios的secure boot开启状态导致。

原因

BIOS设置中Secure boot默认是开启的,所以无法升级或降级内核,因此需要进入bios中把其Secure boot禁用,即可安装NVIDIA最新驱动。

修改BIOS方法

开机按F1进入bios ,选择Security->Secure Boot

右侧将Secure Boot设置为off

标签:nvidia,driver,故障,版本,驱动,显卡,NVIDIA
From: https://www.cnblogs.com/ishmaelwanglin/p/17502400.html

相关文章

  • 智能控制系统控制系统控制系统故障排查:智能控制技术控制系统故障排查方法
    目录《智能控制系统控制系统控制系统故障排查:智能控制技术控制系统故障排查方法》随着智能控制系统的不断发展和应用,智能控制技术在工业、农业、医疗、交通等领域的应用也越来越广泛。但是,由于智能控制系统的复杂性和广泛的应用,系统的稳定性和可靠性也面临着巨大的挑战。因此,智......
  • 分析和排除系统故障
    分析和排除系统故障推荐步骤:日志文件分析在终端新建用户账号二次输入正确的密码切换到终端使用不存在的查看看错误日志找不到终端创建用户查看创建的账户alt+f4切换到第四个终端,使用bob在第四个终端登录查看用户登录的终端二、MBR故障模拟及修复添加磁盘查看新添加的磁盘/dev/......
  • proxmox pve 7.4 显卡直通
    IOMMU(Input-OutputMemoryManagementUnit)是一种硬件功能,用于管理设备对系统内存的访问。启用IOMMU后,可以在虚拟机中直接访问物理设备,并允许虚拟机独立于主机操作系统运行#IntelCPUGRUB_CMDLINE_LINUX_DEFAULT="quietintel_iommu=oniommu=pt"#AMDCPUGRUB_CMDLINE_LINUX......
  • Etcd 故障排查
    Etcd故障排查Etcd磁盘空间爆满解决方案etcd默认的空间配额限制为2G,超出空间配额限制就会影响服务,所以需要定期清理设置环境变量ETCD_CA_CERT="/etc/kubernetes/pki/etcd/ca.crt"ETCD_CERT="/etc/kubernetes/pki/etcd/server.crt"ETCD_KEY="/etc/kubernetes/pki/etcd/serve......
  • Archlinux安装OSX-KVM(无显卡直通)
    0.前期准备qemu虚拟机安装(可以参考Archwiki,或者是我的其他教程)OSX-KVM项目文件下载(这个项目支持macos10-13)https://github.com/kholia/OSX-KVMMacOS的iso镜像(我使用的是macos12Monterey)https://sysin.org1.磁盘文件创建在/var/lib/libvirt/images/创建qcow2磁盘文件,名为......
  • 清除ILOM中的故障码,消除黄灯告警
     X86架构的机器,当出现硬件故障时,一般会在ILOM中会记录下该故障的详细信息,简称为:故障码。当进行硬件更换后,ILOM会自动清除掉该故障码,机器的黄灯告警也会自动消失。但有的时候,总会出现一些莫名其妙的情况,硬件更换后,ILOM中的故障码却无法自动清除,例如下面这个案例。 1、某Exadata......
  • SQL Server故障排除圣经
    微软SQLServer内部技术资料大曝光来自SQLServer开发小组和支持部门的梦之队打造SQLServer故障排除圣经  “本书的内容是其他任何博客、网站和图书都没有的。系统出问题时,它将成为你的救命稻草。”——PinalDave,微软MVP  “此书写得非常好,涵盖了对大量复杂问题进行故障排......
  • Etcd 高可用故障演练
    Etcd高可用故障演练目的本次演练旨在测试Kubernetes的etcd高可用性,检验是否能够在其中一个etcd节点发生故障的情况下,其他etcd节点能够接管其工作,确保集群仍能正常运行。集群架构演练场景在一个三节点的Kubernetes集群中,我们将模拟其中一个etcd节点的故障,观察剩......
  • 硬件&芯片安全渗透利器--BTS1002多接口精密触发故障注入仪
    注1:该软硬件产品均为湖南底网安全信息技术有限公司自主研发,已申请1个发明专利,2个实用新型专利,1个软著,转载请注明出处注2:详细内容详见产品技术手册、用户手册,官网下载地址:www.bttmsec.com/h-col-152.html注3:诚招区域独家代理合作伙伴,欢迎洽谈合作,湖南底网安全竭诚为您服务作者:bi......
  • 安装NVIDIA cuda-toolkit
     NVIDIA®CUDA®工具包为创建高性能GPU加速应用提供了发展环境。使用CUDA工具包,您可以在GPU加速嵌入式系统、桌面工作站、企业数据中心、基于云的平台和HPC超级计算机上开发、优化和部署您的应用程序。工具包包括GPU加速库、调试和优化工具、C/C++编译器以及一个运行......