记录一次实验室linux系统的GPU服务器死机排查过程——某显卡满负荷导致内核进程超时导致系统死机

时间：2022-11-16 19:06:33浏览次数：52

在自己没有管理多台高负荷的ubuntu显卡服务器之前，我是万万想不到linux服务器居然也是如此容易死机的。

什么每个版本的TensorFlow调用显卡驱动时和内核不兼容，什么系统自动升级导致的显卡驱动和内核不兼容，什么显卡驱动没有设置为persistent模式造成驱动进程启动超时，总之，管的时间长了这个GPU服务器啥样原因造成死机的都有，真是要人不得不感慨。

今天要记录的一次服务器死机的原因是显卡高负荷所引起的。

------------------------------------------

具体排查过程：

服务器死机后显示屏上的报错信息：

记录一次实验室linux系统的GPU服务器死机排查过程——某显卡满负荷导致内核进程超时导致系统死机_服务器

根据这个信息，我们知道服务器死机的同时报出大量的INFO：nmi handler took too long

NMI不可屏蔽中断的信息频频报出，说明此时存在某个CPU进程在调用内核函数时已经超时，由此造成系统内核soft locked，此时整个服务器已经进入slow down的状态了，这也是服务器死机的一种表现。

在服务器死机，NMI信息频发的同时，我们可以看到kernel记录了Call Trace信息，也就是死机时报错的内核函数的函数调用信息，该信息可以作为调试信息和检查死机原因之用。

根据Call Trace信息，我们可以知道造成服务器系统死机的具体进程的报错信息，因此可以知道native_queued_spin_lock_slowpath是造成这次死机最初的那个点的入口。

这个Call Trace信息需要从下往上看：

entry_SYSCALL_64_after_hwfram ：准备进入系统调用阶段

exc_page_fault ：访问缺页

do_syscall_64 : 进入系统调用阶段

x64_sys_ioctl : 内核对设备驱动程序中的I/O通道进行调用

nvidia_frontend_unlocked_ioctl : 内核空间下调用nvidia驱动的I/O通道函数

可以看到报错的信息主要是nvidia驱动在进行I/O操作时候引起的。

===============================================

由于我们的这个Dell服务器是可以通过远端管理的，我们通过远程管理界面看看厂家给的监控信息：

记录一次实验室linux系统的GPU服务器死机排查过程——某显卡满负荷导致内核进程超时导致系统死机_死机_02

记录一次实验室linux系统的GPU服务器死机排查过程——某显卡满负荷导致内核进程超时导致系统死机_死机_03

可以看到官方厂家给出的报错信息为：

A bus fatal error was detected on a component at slot 6.

A fatal error was detected on a component at bus 216 device 0 function 0.

根据这个信息，我们查看PCIE上的设备信息

记录一次实验室linux系统的GPU服务器死机排查过程——某显卡满负荷导致内核进程超时导致系统死机_服务器_04

可以看到6号槽的设备信息为：

记录一次实验室linux系统的GPU服务器死机排查过程——某显卡满负荷导致内核进程超时导致系统死机_死机_05

根据设备的地址信息，我们查看下这个地址下的设备到底是什么设备：

记录一次实验室linux系统的GPU服务器死机排查过程——某显卡满负荷导致内核进程超时导致系统死机_死机_06

可以看到这个报错的设备就是第四张显卡。

=================================

查看操作系统的内核日志：

记录一次实验室linux系统的GPU服务器死机排查过程——某显卡满负荷导致内核进程超时导致系统死机_服务器_07

记录一次实验室linux系统的GPU服务器死机排查过程——某显卡满负荷导致内核进程超时导致系统死机_显卡驱动_08

记录一次实验室linux系统的GPU服务器死机排查过程——某显卡满负荷导致内核进程超时导致系统死机_显卡驱动_09

记录一次实验室linux系统的GPU服务器死机排查过程——某显卡满负荷导致内核进程超时导致系统死机_杂谈_10

可以看到在服务器死机的时候第四个显卡的电源模式转为最高，再根据最初的死机时报错的信息我们可以估计出问题是第四个显卡在满功率运行并且再进行内存和显存的申请、读取等操作，这时候内核陷入了死锁等待。

造成系统死机的直接导火索是第4个显卡运行满负荷，在进行I/O通道操作时造成了NMI的累计，最后形成了死锁，但是其根本原因则是内核与nvidia显卡驱动的不匹配问题。显卡满负荷只是诱因，直接导致这个发生的则是内核太新，驱动太旧：

记录一次实验室linux系统的GPU服务器死机排查过程——某显卡满负荷导致内核进程超时导致系统死机_杂谈_11

记录一次实验室linux系统的GPU服务器死机排查过程——某显卡满负荷导致内核进程超时导致系统死机_死机_12

=============================================

标签：死机,导致系统,信息,报错,内核,显卡,服务器
From： https://blog.51cto.com/u_15642578/5857000

记录一次实验室linux系统的GPU服务器死机故障的排查——Linux系统的Power States
实验室的ubuntu服务器不知怎么的突然又崩溃了，死机重启，然后查看日志，发现了下面的情况：由于从其他的日志中知道是显卡的问题引起的死机，而这个显卡的地址正好是D9:00，这......
电脑死机的原因有哪些
电脑死机是由于无法启动系统，画面“定格”无反应，鼠标、键盘无法输入，软件运行非正常中断等。尽管造成死机的原因是多方面的，但是万变不离其宗，其原因永远也脱离不了硬件和软件......
笔记本 Optimus MUXless 下的 Intel 和 NVIDIA 虚拟机显卡直通
参考https://lantian.pub/article/modify-computer/laptop-intel-nvidia-optimus-passthrough.lantian/......
记录实验室深度学习服务器显卡硬件故障的排查——
实验室突然通知我说是深度学习的服务器无法查看GPU，并且在GPU上运行的程序也halton，需要解决。于是查询服务器的运行日志得到下面的信息： Nov1001:33:23dellkernel:[......
Ubuntu 20.04 LTS/RTX30XX显卡快速配置深度学习环境（一行命令）
近日，新入一台RTX3080的服务器，目前好像还没办法很方便地在RTX30系列GPU上通过pip/conda安装TensorFlow或PyTorch。因为这些GPU需要CUDA11.1，而当前主流的Tensor......
如何实现nvidia显卡的cuda的多kernel并发执行？？？
相关：CPU端多进程/多线程调用CUDA是否可以加速？？？ ====================================================......
如何关闭NVIDIA显卡的CUDA运算功能
基本很少有人会想到要关闭NVIDIA显卡的CUDA计算功能，这东西不想用就不跑cuda代码不就可以了吗，但是作为一个深度学习服务器集群的管理者来说，这个功能还是有用处的。前一阵使......
实验室服务彻底死机记录——硬件故障——主板pcie槽坏掉或显卡坏掉
实验室的深度学习服务器这次是彻底坏掉了，以前死机都是会在log日志中找到些信息，这次死机死的干脆，什么log都没有就自动关机了，神奇的很，以前的服务器死机可能还算是假死，这次的死......
NVIDIA显卡cuda的多进程服务——MPS(Multi-Process Service)
相关内容：tensorflow1.x——如何在C++多线程中调用同一个session会话tensorflow1.x——如何在python多线程中调用同一个session会话 ===========================......
PVE开启硬件显卡直通功能
首先编辑GRUB配置文件：root@pve:~#vim/etc/default/grubroot@pve:~#root@pve:~#cat/etc/default/grub#Ifyouchangethisfile,run'update-grub'afterwardstoupda......

记录一次实验室linux系统的GPU服务器死机排查过程——某显卡满负荷导致内核进程超时导致系统死机

相关文章

赞助商

阅读排行