首页 > 其他分享 >这些年在机房踩过的坑

这些年在机房踩过的坑

时间:2023-08-12 18:01:34浏览次数:27  
标签:机器 机柜 电源线 这些 机房 服务器 硬盘

前言

以此文作为数据中心、云服务器使用体验、经验的最后一篇文章。近期因为工作因素,协议有限制,因此后续笔者任何渠道都不会公开性的分享类似的试用体验了。分享的体验仅供参考不做推荐,只反应当时的情况。我佩服一个销售,全天24小时几乎随叫随到,随时在线,当有什么需要他配合的时候,分分钟上手,可以说是一个人撑起了一整个机房。当他离职的时候,我都不知道后续上机柜找谁,后续对接的销售连木头疙瘩都不如,木鱼敲一下还能回应一声呢;当他离职的时候,一两年的光景吧,机房内的空机柜肉眼可见的增加了,原本是满满当当,哪怕有问题的机柜也得凑活用的,而后来,撤了,经营难以为继。可能是时代的大背景影响,也可能是薪资待遇,毕竟他还是在这个圈子干,据说是和朋友合伙吧,不过只是类似OEM了个品牌。

篇幅较长,供刚接触或者即将接触数据中心的小白入门闲暇阅读。老鸟怕是遇到的情况比我多得多,也欢迎补充。


不可抗力

有一些因素属于不可抗力,而大部分不是。对于传统数据中心业务或者资源协作业务,发生损失的时候业务必定是已经交付了,如有不可抗力,因此实际上从法律角度,都是用户自担风险。不是法律从业者,不做专业解读,个人理解。

不能预见、不能避免并且不能克服,尽职尽责没有过失的情况下造成的损失,只能自己兜着了。虽然是缺一不可,很多情况其实也是有条件避免的,但是都是钱的问题。如果不差钱的话为什么选择性价比呢?做了任何一个选择都要承受后果。不差钱的话为啥要干活嘞,无解的。


列举各种坑供参考,作为考察的时候的参考点。


  1. 机房停电。突然间整个机房完全停了电,黑灯瞎火,"空气突然安静"。管理混乱的一种后果。哪怕08年南方电网那么脆弱都没停过电,自开通起就没停过电,停了。业务中断4小时。(不是郑州泡水。那种动力室随时进水必须断电的刺激我更不想体验。)
  2. 机器被扣。机房可能因为经营上的问题或者其他用户的问题,整个机房被查封。断电断网,机器被扣。得亏每日凌晨推送整机柜全部经营数据到备份中心。连夜肉身带着硬盘去其他机房紧急增加机柜补救。次日下午14点初步上线,当天晚高峰没有异常。损失了2台存储服务器,约210T历史归档数据,损失了1台2U备份磁带库及75个磁带的数据,损失了9台4子星,直接经济损失约25万(以损失时市场二手价格计算),间接经济损失6万(品牌形象之类的无视,仅包含对客户的5倍补偿,损失的剩余托管费)
  3. 机器被烧。“OVH机房上云”过程笔者是亲历者,由于之前遇到过硬盘故障系统挂了,以为此次也是这个原因然后系统跑飞了,没当回事。庆幸数据均有备份。不是什么公开的服务器,个人玩物性质的。“反正不是我的机器”,相对于某些老哥发文,仔细发出了自己机器所在机柜位置,我毫不关心。我只关心后续的补偿,虽然白得的天上掉馅饼的好事,但是给的补偿我感觉也不是很满意。
  4. 机器起火。有机房的原因,有客户的原因。
  1. 其实吧本身我都是有专门配置电源线的,但是机柜里残余了一些之前用户的电源线。机器负载比较大,原有电源线质量不过关,此时电源线已经软塌塌的了。我习惯是尽可能合适的长度,尼龙扎带固定整理。不知道机房的人怎么想的,用铁丝扎带固定。铁丝扎带勒破了电源线以及扎带自身的多层绝缘层。电源线有发烟,烧断短路。索性此机房每个输出均配置了一个16A空气开关,仅空气开关跳闸,电源线发烟短路。机器有配置双电源无业务影响。用铁丝扎带捆电源线,固定在机柜上,不明显,哪怕电信的工作人员每日逐机柜检查也没有看到。
  2. 固态硬盘着火。劣质的PCIE转U.2转接卡。其实U.2此类硬盘更合适的位置当然是服务器具有原生U.2位,位于机器前段,与普通硬盘一样享受最凉爽的气流。温度过高对固态有不利的影响。不过客户自有设备,我只能做建议,客户不采纳。在某一天炸机了。固态肯定是烧毁了。转接卡也没法用了。服务器可能也坏了。当时是各种方式都无法再点亮了,送回服务器后客户表示服务器没问题能用。
  3. 同样是固态硬盘着火,同行机房使用杂牌SATA固态硬盘,通过硬盘架正常插入机箱前热盘位。固态接口烧毁。不是没有妥善安装,纯属连接器质量问题导致短路。毕竟SATA那工作电流,想要虚接产生这样的发热烧毁可太难了。因工作关系不能点名服务器品牌,总之就是两个不太靠谱的品牌碰撞产生的火花。类似的体验:普通主板ATX24PIN可能很容易连接,也可能很难连接,当杂牌配杂牌可能松紧适度,反面的技嘉配台达也很爽,一插到底手感舒适,插拔体验和固定的可靠程度没什么问题。但是杂牌的电源插技嘉板子,可能没那么容易插紧,上尖嘴钳两边用力才压到底。
  1. 精密空调没接水源。机房内一排艾默生的精密空调都闪烁着干燥的告警。我感觉是干燥的不舒服,甚至觉得机房有点火热,但是服务器本身机柜进气温度没有问题。过于干燥可能会影响散热效果,产生不必要的静电之类的。要我说,自来水还有水垢,冷凝水原路返还也不会太干燥吧,合适的湿度区间可大了。
  2. 机房漏水。三方机房铁皮仓库漏水说得过去,运营商机房出现这种问题过分了吧。导致服务器外壳锈迹斑斑。机器内部倒是没有进水。
  3. 配件被偷。同行的遭遇。机柜下架后,处理器、内存条均失窃。几万块钱损失总是有的。
  4. 数据失窃。该机房管理不可以说是不严格。到处有监控,死角也明显少于其他机房几乎没有盲区,任何配件,哪怕是一张TF卡,也要记录工单。就是这么严谨的机房,其他用户买通机房运维工作人员,对我的服务器破密获取我编写的管理软件供自己使用。客户丧失对我的信任,放弃合作。
  5. 管理问题。有管理严格的机房,就有瞎来的机房。管理标识不清,机器标签没有妥善可靠的固定方式。导致标签重复出现或者缺失。
  1. 有因为标签重复出现导致意外的重装的。幸运的是没有数据损失
  2. 有机房误操作,其他客户要求对我的机器进行重启?值班客服没有验证用户信息直接就让网维去干了
  3. 类似上述原因,刚刚上线的服务器被机房重装。其实这两个原因很不应该的,机房网维几乎都认识我,我有完善的IPMI带外管理体系,几乎不会安排机房的网维进行什么操作,他们竟然也没有质疑。不过他们也没责任,锅肯定是值班管理的。
  4. 其他客户的机器上到我的机柜。为了最大程度避免被“误操作”,碰到电源线、网线之类的事故,我基本上选择整柜托管业务。公网交换机可能不一定会自备,没有及时发现,竟然有其他用户的服务器上到了我的机柜里。
  1. 温度过高。比如下送风的机柜失去了玻璃门。机房负荷过大之类的。至于有人问开窗通风散热的三方机房,我只能说,运营商性质的新风机房可能也差不多。滤网也没法完全吸附灰尘,时间久了灰大是肯定的。船新的服务器在四星级机房跑两三年,摸着也有点滑腻感呢,组装服务器机箱盖子有可能被吹了一圈灰尘呢。何况这种直接引入外部空气的机房。担心问题,灰尘一般问题还好,普通的品牌服务器要求的也就是百级无尘,其实还是比较容易达到的,攒组装机可能就更不怕了。
  2. 供电问题。遇到过好多次了,有运营商性质的,也有三方性质的,普遍与“新风”共生。大概250-280伏特的直流输入吧。渣渣电源大部分无视,服务器电源功率普遍也比较大日常轻载无压力。品牌服务器可能会告警,没有配备专用的高压直流电源。也可能拒绝开机。至于半桥电路需要交换正负极在服务器电源应该不大会遇到。
  3. 震动问题。整机房机柜设计安装没有布置应有的缓冲结构,没有正确的安装。整个机房的机柜、地板不是一般的震动。震感类似手机在桌面震动,哪怕是品牌服务器的硬盘架,也没有办法无视这震动等级对机械硬盘寿命的影响。在此机房部署的几十个单碟机械硬盘,平均寿命不足3年就会出现严重的问题需要替换。而很多客户做了RAID,且不懂监控,看不到告警直到丢失数据。
  4. 机房配置问题。 交换机配置没保存什么的太常见了。可能几个月都不会发现,发现的时候:断网、产生高昂的不必要的带宽费用
  5. 机柜插座问题。机柜插座是16A的插头。大家都不管,暴力插入普通10A的插头。我算是讲究点,就自备了网络PDU,16A从机柜取电,再连服务器,也完美。其实普通双路服务器也没多少电,用不着每个服务器一个插座。同样的,还见过老机房,用普通家用排插的,还是老国标,万用孔,心真大。一个机柜6个接线板,每个接线板12个万用孔。一整个机房全是这样的,还是运营商性质的。见过多了。这种安全隐患什么时候能消了?也有普通家用排插但是只有三孔的,算是安全点,但是看那外壳的颜色,怕是机房落成就在了吧。安全么,那么多年前的公牛,还不带过载保护的,接的服务器多了得多危险。在供电方面,个人认为反而一些三方的机房在这方面靠谱很多。
  1. 运营商的机房不是电流毫无监控,由此维护整柜下电,电信的人来询问了怎么这个机柜没电流了是发生什么意外了么?其实是有监控的。但是这样的机房,大量的电老虎。一个机柜可能有30A以上的电流,远远超过了设计许可。虽然机柜总线进来看样子100A都没问题,空调顶不住啊。
  1. 地板塌陷。地面有灰尘很滑等等。自己注意吧。注意安全。
  2. 照明省钱。各有各的省法,合规么?都是运营商产权的机房。有机房是插卡取电。电卡插入照明亮起,小心其他工作人员拔卡,一脸懵逼全黑了。还有机房替换了那种微波感应灯管,人路过灯才亮,最烦的不是这点,而是我这边在整理机柜网线,灯灭了又亮了实在是烦躁。也有年久失修欠维护的,难道是机房缺钱了么,超过一半的灯管都不亮了。
  3. 交换机。用百兆交换机对于带宽不大的托管其实无所谓,除非被大流量的滤后堵死了下行。不过不是太高防护的地方问题也不大,震惊的是,有机房给整柜客户用傻瓜百兆交换机。虽然对我来说无所谓,我也没遇到过这种情况。但是我所在的同机房有人遇到过,可能他们半柜的会遇到。
  4. PON接入。运营商产权的机房。我是何德何能,竟然找到了这种机房。四层防护尚可,7层防护有一定效果,可以要求自定义7层策略。网络稳定。测试都完善,当我计划去上机的时候,竟然发现,GPON到机柜,配合GPON MDU设备,就是那种24口大光猫。我说这个机房怎么:IP价格便宜、带宽价格便宜、有一定防护超过阈值黑洞5分钟就解封,鱼与熊掌兼得,原来是这里挖着坑等着我呢。其实好像也没什么太大的问题?而且除了固定IP,他们还可以宽带拨号那种。
  5. 交换机带宽限速配置不专业。很常见,网维如果是“严谨”一些的,脾气可能古怪,至少技术上比较钻研还是比较好的。而很多机房的交换机网维仅仅是当上班罢了,不会考虑完整的配置参数,按照要求能配置起来就是了。细节不少,会钻研一些的都是小问题,哪怕要求按照MAC地址、IP地址来配置VLAN,都会协助。而某些就很懒惰了,哪怕是你指出了说明,要求怎么个配置方法。例如如果交换机做限速,未配置突发带宽的情况。一般来说交换机对某个端口例如限速20Mbps,没有配置突发带宽之类的。具体就不多说了,可能有不少人碰上了而不自知。20Mbps带宽正常业务跑满,延迟两三百;网速测试速度不是一下子到20Mbps的,是慢慢往上探的。而正常配置下,带宽正常用满20Mbps并不会出现延迟上升的问题,测速也是瞬间就能测到20Mbps的。
  1. 有的机房是双向都没做好。可能是技术完全不懂,小白上岗。有一些呢是老带新,小白复制黏贴大佬留下的命令满足业务需求。结果导致出现一半的问题。上行正常占满没有延迟,而下行同样的方式正常占满延迟增加两三百毫秒。联系机房,机房给“解开了下行限制”。原本是20Mbps上下行对称限制这样,解开后下行也就只是到500Mbps,其实他们就算要限制成20,也是完全能限制好的啊。很多人可能不注意这个问题,或者注意了也不知道怎么说,这种操作非常影响网络体验,产生不必要的延迟增加、丢包。
  1. 空城计。一个运维管理附近的两个机房。电瓶车来回。要上架机器没人给开门。
  2. 刁钻的保安。现实的社会。哪怕你开一辆面包车,都能比较顺利、方便、直接地进入园区。如果你坐在某些车上,保安还能跟你打招呼。但是你如果是背着双肩包,一个人或者带着跟班想要走进来?破事多的很。什么开门时间、登记、押某证、拖鞋反复过X光。虽然我知道跟他们打好关系也不是什么太麻烦的事。不过我不想浪费时间在这上面,为了机柜整洁符合我的要求,就算我不亲自整理,也要自己亲自验收过,本身时间就很急,浪费时间精力在这种无意义无收益的与人沟通上真是糟糕。
  1. 然后顺带着还会形成很多毫无意义的规定。例如某机房机器进出需要出门单。需要找电信盖章然后机器才可以发出。电信只有周一到周五早9晚5上班,午饭休息2个小时,周二下午休息。电信休息的时候机器无法出门,所以东西无法带出,包括快递发出机器。但是如果你开了辆车来,或者叫了辆网约车,这就过分了,机器直接就可以带走了。
  2. 无意义的规定,无效的检查可以看作是对规则的遵守。但是碰上老顽固你还真没什么办法。闪存类产品其实是惧怕X光的,交通枢纽、机场的剂量都做了适当的设定,但是这种地方嘛,不谈是否对人体有害,部分产品真的是会受损的。带了整箱固态硬盘进入机房调换。为了节约时间以及便于携带提前拆好包装成两捆,50个盘。结果嘛,完全可以看得清清楚楚的东西,要你平摊在框子,过一遍X光机。大部分的固态都出现了问题,全新的固态已经测试完美的,在上机的时候,少量的硬盘blkdiscard会失败,全部的硬盘格式化速度缓慢,格式化完成挂载后读取速度缓慢,需要存储文件后才能恢复性能。如果开车过来,下来个人登记下,哪有那么多麻烦事儿。
  3. 维保麻烦。船新的没通过电的服务器,上架后风扇竟然有偶然性问题,偶尔转偶尔不转。当地售后分分钟就来了,进不去。只留备件风扇在门卫。我都让进,竟然无论如何就是不让服务器大厂原厂的硬件工程师进,哪怕也走同样的留存信息也不允许,机房经营的IDC公司好说歹说也进不去。

随便列举这些吧。后续有合适的机会在补充也好。




标签:机器,机柜,电源线,这些,机房,服务器,硬盘
From: https://blog.51cto.com/infrado/7060503

相关文章

  • 想进大厂?先把这些数据结构与算法学明白!!!
    *文末有1元解锁专栏福利今天聊聊掌握了不一定能拿到大厂Offer,但不掌握一定进不去大厂的神技「数据结构与算法」。为什么突然提到了数据结构与算法呢?这要从一个朋友的吐槽开始。我这位朋友一心想进大厂,学历还不错、能力也不错,但就是拿不到大厂Offer。大家都劝他多刷LeetCode,把......
  • 不了解sys库也敢说Python行?sys模块这些用法你需要知道
    前言“不会用sys模块的Python程序员,和不会开车的司机一样令人捉急。”这句话一点没错,因为sys模块可以让你快速做到:解析命令行参数在运行Python程序时,我们可以在命令行中传递不同的参数,如果不用sys.argv来获取,你将很难处理程序输入。获取Python解释器信息要获取当前运行环境......
  • 写测试用例、重构函数、生成SQL查询……原来CodeGeeX还能做这些!
    CodeGeeX中的智能问答功能“AskCodeGeeX”可以帮助程序员解答开发过程中遇到的问题。但是“AskCodeGeeX”的能力不止于此,用它还能帮助程序员高效编写测试用例,添加代码调试信息,实现SQL语句等等。如果你还不知道如何实现,下面我们一起来看几个例子,看看程序员拥有一个超级编程助手,......
  • 这些命令可以直接在Windows资源管理器的地址栏中输入,或通过运行对话框(Win + R)中输入运
    Windowsshell命令和路径:shell:commonstartup:该命令用于打开"公共启动"文件夹,这是一个用于存放所有计算机用户启动项的文件夹。在这个文件夹中放置的程序或快捷方式会在每个用户登录时自动执行。shell:sendto:这个命令用于打开"发送到"菜单的文件夹,它包含了在右键菜单中"发送到"......
  • Godot无法响应鼠标点击等输入事件时,检查这些内容
    注:本文以Godot4.0为基准,可能其他版本也能参考。这是我用C#写项目时发现的,可能和gdscript使用者遇到的问题有一定区别。如果你用Godot制作的游戏无法响应鼠标点击等输入事件,请检查下面这几种可能性,说不定能解决你的问题:1绑定gui_input信号的节点是否是Control?绑定p......
  • JMeter有对手了?RunnerGo这些功能真不错!
    当谈到对于性能测试的需求时,JMeter和RunnerGo在测试场景设置、执行性能测试、性能测试结果分析等方面都提供了很多功能,但两个工具仍然存在一些区别。以下是详细的比较分析:层次分明的模块化设计告别文件管理混乱:JMeter的设计倾向于单体结构,即将所有测试元素组合在一个文件中,一个文件......
  • JMeter有对手了?RunnerGo这些功能真不错!
    当谈到对于性能测试的需求时,JMeter和RunnerGo在测试场景设置、执行性能测试、性能测试结果分析等方面都提供了很多功能,但两个工具仍然存在一些区别。以下是详细的比较分析:层次分明的模块化设计告别文件管理混乱:JMeter的设计倾向于单体结构,即将所有测试元素组合在一个文件中,一个......
  • 江苏省发布雨水排放环境管理办法,这些重点值得关注!
    近日,江苏省深入打好污染防治攻坚战指挥部办公室正式印发了《江苏省重点行业工业企业雨水排放环境管理办法(试行)》,已于2023年5月15日正式施行。本办法所称重点行业工业企业,是指化工、电镀原料药制造、冶炼、印染行业(或含相关工序)的工业企业,以下简称“工业企业”。要求工业企业建......
  • 在使用时序数据库 TDengine 进行 SQL 查询时,这些问题需要注意
    小T导读:尽管时序数据处理的特点是以写操作为主,读操作为辅,但查询需求也不容忽视。为方便用户上手,时序数据库(TimeSeriesDatabase)TDengine 采用SQL作为查询语言,主要查询功能包括单列及多列数据查询、数值列及聚合结果的四则运算、时间戳对齐的连接查询操作等,本文将就部分查询......
  • 在搭建帮助中心系统的时候可不要漏掉这些内容
    帮助中心系统这个概念虽然已经是出现了很久的,但是looklook发现还是有很多网友对其具体内容不太了解。今天looklook就来盘点一下,如果想要搭建一个帮助中心系统,我们最好在里面添加哪些内容呢!帮助中心系统应包含的内容1.常见问题解答(FAQ):列出用户经常遇到的问题并提供简明的解答,帮助用......