实验室的深度学习服务器这次是彻底坏掉了,以前死机都是会在log日志中找到些信息,这次死机死的干脆,什么log都没有就自动关机了,神奇的很,以前的服务器死机可能还算是假死,这次的死机就是直接崩溃关机,而且是毫无征兆的关机,这一切就发生正一瞬之间。
服务器崩溃后的一些信息:
=============================================
查看服务的厂家监控日志:
最后这个结果,只能怀疑是服务器的pcie的6号slot坏掉了,可能是主板上的问题,也可能是这个槽上的显卡的问题,总之是硬件坏掉了。
找厂家保修:
由于这个服务器还在保修期间,于是联系了售后和厂家,给出的答复也是判断为硬件故障,不过他们更加怀疑的是主板PCIE槽的问题,不管怎么说这已经不是我所考虑的了,这剩下的就由售后和厂家搞了。
不得不说,玩linux系统十多年了,玩服务器也好多年了,这也是头一把见到服务器硬件损坏的,当时购买这台服务器的时候我是主张不要保修的,这个保修服务器这东西,我这么多年就没见过服务器硬件坏的,只见过服务器过时淘汰掉的,最后还是师兄力主要保修,看来这也真是幸亏当时买的时候要保修了,不然这可真不知道咋收场,看来服务器这东西,保修还是很有必要的。
--------------------------------------------------------------------
标签:坏掉,死机,硬件,厂家,显卡,服务器,保修 From: https://blog.51cto.com/u_15642578/5826220