前言
以此文作为数据中心、云服务器使用体验、经验的最后一篇文章。近期因为工作因素,协议有限制,因此后续笔者任何渠道都不会公开性的分享类似的试用体验了。分享的体验仅供参考不做推荐,只反应当时的情况。我佩服一个销售,全天24小时几乎随叫随到,随时在线,当有什么需要他配合的时候,分分钟上手,可以说是一个人撑起了一整个机房。当他离职的时候,我都不知道后续上机柜找谁,后续对接的销售连木头疙瘩都不如,木鱼敲一下还能回应一声呢;当他离职的时候,一两年的光景吧,机房内的空机柜肉眼可见的增加了,原本是满满当当,哪怕有问题的机柜也得凑活用的,而后来,撤了,经营难以为继。可能是时代的大背景影响,也可能是薪资待遇,毕竟他还是在这个圈子干,据说是和朋友合伙吧,不过只是类似OEM了个品牌。
篇幅较长,供刚接触或者即将接触数据中心的小白入门闲暇阅读。老鸟怕是遇到的情况比我多得多,也欢迎补充。
不可抗力
有一些因素属于不可抗力,而大部分不是。对于传统数据中心业务或者资源协作业务,发生损失的时候业务必定是已经交付了,如有不可抗力,因此实际上从法律角度,都是用户自担风险。不是法律从业者,不做专业解读,个人理解。
不能预见、不能避免并且不能克服,尽职尽责没有过失的情况下造成的损失,只能自己兜着了。虽然是缺一不可,很多情况其实也是有条件避免的,但是都是钱的问题。如果不差钱的话为什么选择性价比呢?做了任何一个选择都要承受后果。不差钱的话为啥要干活嘞,无解的。
坑
列举各种坑供参考,作为考察的时候的参考点。
- 机房停电。突然间整个机房完全停了电,黑灯瞎火,"空气突然安静"。管理混乱的一种后果。哪怕08年南方电网那么脆弱都没停过电,自开通起就没停过电,停了。业务中断4小时。(不是郑州泡水。那种动力室随时进水必须断电的刺激我更不想体验。)
- 机器被扣。机房可能因为经营上的问题或者其他用户的问题,整个机房被查封。断电断网,机器被扣。得亏每日凌晨推送整机柜全部经营数据到备份中心。连夜肉身带着硬盘去其他机房紧急增加机柜补救。次日下午14点初步上线,当天晚高峰没有异常。损失了2台存储服务器,约210T历史归档数据,损失了1台2U备份磁带库及75个磁带的数据,损失了9台4子星,直接经济损失约25万(以损失时市场二手价格计算),间接经济损失6万(品牌形象之类的无视,仅包含对客户的5倍补偿,损失的剩余托管费)
- 机器被烧。“OVH机房上云”过程笔者是亲历者,由于之前遇到过硬盘故障系统挂了,以为此次也是这个原因然后系统跑飞了,没当回事。庆幸数据均有备份。不是什么公开的服务器,个人玩物性质的。“反正不是我的机器”,相对于某些老哥发文,仔细发出了自己机器所在机柜位置,我毫不关心。我只关心后续的补偿,虽然白得的天上掉馅饼的好事,但是给的补偿我感觉也不是很满意。
- 机器起火。有机房的原因,有客户的原因。
- 其实吧本身我都是有专门配置电源线的,但是机柜里残余了一些之前用户的电源线。机器负载比较大,原有电源线质量不过关,此时电源线已经软塌塌的了。我习惯是尽可能合适的长度,尼龙扎带固定整理。不知道机房的人怎么想的,用铁丝扎带固定。铁丝扎带勒破了电源线以及扎带自身的多层绝缘层。电源线有发烟,烧断短路。索性此机房每个输出均配置了一个16A空气开关,仅空气开关跳闸,电源线发烟短路。机器有配置双电源无业务影响。用铁丝扎带捆电源线,固定在机柜上,不明显,哪怕电信的工作人员每日逐机柜检查也没有看到。
- 固态硬盘着火。劣质的PCIE转U.2转接卡。其实U.2此类硬盘更合适的位置当然是服务器具有原生U.2位,位于机器前段,与普通硬盘一样享受最凉爽的气流。温度过高对固态有不利的影响。不过客户自有设备,我只能做建议,客户不采纳。在某一天炸机了。固态肯定是烧毁了。转接卡也没法用了。服务器可能也坏了。当时是各种方式都无法再点亮了,送回服务器后客户表示服务器没问题能用。
- 同样是固态硬盘着火,同行机房使用杂牌SATA固态硬盘,通过硬盘架正常插入机箱前热盘位。固态接口烧毁。不是没有妥善安装,纯属连接器质量问题导致短路。毕竟SATA那工作电流,想要虚接产生这样的发热烧毁可太难了。因工作关系不能点名服务器品牌,总之就是两个不太靠谱的品牌碰撞产生的火花。类似的体验:普通主板ATX24PIN可能很容易连接,也可能很难连接,当杂牌配杂牌可能松紧适度,反面的技嘉配台达也很爽,一插到底手感舒适,插拔体验和固定的可靠程度没什么问题。但是杂牌的电源插技嘉板子,可能没那么容易插紧,上尖嘴钳两边用力才压到底。
- 精密空调没接水源。机房内一排艾默生的精密空调都闪烁着干燥的告警。我感觉是干燥的不舒服,甚至觉得机房有点火热,但是服务器本身机柜进气温度没有问题。过于干燥可能会影响散热效果,产生不必要的静电之类的。要我说,自来水还有水垢,冷凝水原路返还也不会太干燥吧,合适的湿度区间可大了。
- 机房漏水。三方机房铁皮仓库漏水说得过去,运营商机房出现这种问题过分了吧。导致服务器外壳锈迹斑斑。机器内部倒是没有进水。
- 配件被偷。同行的遭遇。机柜下架后,处理器、内存条均失窃。几万块钱损失总是有的。
- 数据失窃。该机房管理不可以说是不严格。到处有监控,死角也明显少于其他机房几乎没有盲区,任何配件,哪怕是一张TF卡,也要记录工单。就是这么严谨的机房,其他用户买通机房运维工作人员,对我的服务器破密获取我编写的管理软件供自己使用。客户丧失对我的信任,放弃合作。
- 管理问题。有管理严格的机房,就有瞎来的机房。管理标识不清,机器标签没有妥善可靠的固定方式。导致标签重复出现或者缺失。
- 有因为标签重复出现导致意外的重装的。幸运的是没有数据损失
- 有机房误操作,其他客户要求对我的机器进行重启?值班客服没有验证用户信息直接就让网维去干了
- 类似上述原因,刚刚上线的服务器被机房重装。其实这两个原因很不应该的,机房网维几乎都认识我,我有完善的IPMI带外管理体系,几乎不会安排机房的网维进行什么操作,他们竟然也没有质疑。不过他们也没责任,锅肯定是值班管理的。
- 其他客户的机器上到我的机柜。为了最大程度避免被“误操作”,碰到电源线、网线之类的事故,我基本上选择整柜托管业务。公网交换机可能不一定会自备,没有及时发现,竟然有其他用户的服务器上到了我的机柜里。
- 温度过高。比如下送风的机柜失去了玻璃门。机房负荷过大之类的。至于有人问开窗通风散热的三方机房,我只能说,运营商性质的新风机房可能也差不多。滤网也没法完全吸附灰尘,时间久了灰大是肯定的。船新的服务器在四星级机房跑两三年,摸着也有点滑腻感呢,组装服务器机箱盖子有可能被吹了一圈灰尘呢。何况这种直接引入外部空气的机房。担心问题,灰尘一般问题还好,普通的品牌服务器要求的也就是百级无尘,其实还是比较容易达到的,攒组装机可能就更不怕了。
- 供电问题。遇到过好多次了,有运营商性质的,也有三方性质的,普遍与“新风”共生。大概250-280伏特的直流输入吧。渣渣电源大部分无视,服务器电源功率普遍也比较大日常轻载无压力。品牌服务器可能会告警,没有配备专用的高压直流电源。也可能拒绝开机。至于半桥电路需要交换正负极在服务器电源应该不大会遇到。
- 震动问题。整机房机柜设计安装没有布置应有的缓冲结构,没有正确的安装。整个机房的机柜、地板不是一般的震动。震感类似手机在桌面震动,哪怕是品牌服务器的硬盘架,也没有办法无视这震动等级对机械硬盘寿命的影响。在此机房部署的几十个单碟机械硬盘,平均寿命不足3年就会出现严重的问题需要替换。而很多客户做了RAID,且不懂监控,看不到告警直到丢失数据。
- 机房配置问题。 交换机配置没保存什么的太常见了。可能几个月都不会发现,发现的时候:断网、产生高昂的不必要的带宽费用
- 机柜插座问题。机柜插座是16A的插头。大家都不管,暴力插入普通10A的插头。我算是讲究点,就自备了网络PDU,16A从机柜取电,再连服务器,也完美。其实普通双路服务器也没多少电,用不着每个服务器一个插座。同样的,还见过老机房,用普通家用排插的,还是老国标,万用孔,心真大。一个机柜6个接线板,每个接线板12个万用孔。一整个机房全是这样的,还是运营商性质的。见过多了。这种安全隐患什么时候能消了?也有普通家用排插但是只有三孔的,算是安全点,但是看那外壳的颜色,怕是机房落成就在了吧。安全么,那么多年前的公牛,还不带过载保护的,接的服务器多了得多危险。在供电方面,个人认为反而一些三方的机房在这方面靠谱很多。
- 运营商的机房不是电流毫无监控,由此维护整柜下电,电信的人来询问了怎么这个机柜没电流了是发生什么意外了么?其实是有监控的。但是这样的机房,大量的电老虎。一个机柜可能有30A以上的电流,远远超过了设计许可。虽然机柜总线进来看样子100A都没问题,空调顶不住啊。
- 地板塌陷。地面有灰尘很滑等等。自己注意吧。注意安全。
- 照明省钱。各有各的省法,合规么?都是运营商产权的机房。有机房是插卡取电。电卡插入照明亮起,小心其他工作人员拔卡,一脸懵逼全黑了。还有机房替换了那种微波感应灯管,人路过灯才亮,最烦的不是这点,而是我这边在整理机柜网线,灯灭了又亮了实在是烦躁。也有年久失修欠维护的,难道是机房缺钱了么,超过一半的灯管都不亮了。
- 交换机。用百兆交换机对于带宽不大的托管其实无所谓,除非被大流量的滤后堵死了下行。不过不是太高防护的地方问题也不大,震惊的是,有机房给整柜客户用傻瓜百兆交换机。虽然对我来说无所谓,我也没遇到过这种情况。但是我所在的同机房有人遇到过,可能他们半柜的会遇到。
- PON接入。运营商产权的机房。我是何德何能,竟然找到了这种机房。四层防护尚可,7层防护有一定效果,可以要求自定义7层策略。网络稳定。测试都完善,当我计划去上机的时候,竟然发现,GPON到机柜,配合GPON MDU设备,就是那种24口大光猫。我说这个机房怎么:IP价格便宜、带宽价格便宜、有一定防护超过阈值黑洞5分钟就解封,鱼与熊掌兼得,原来是这里挖着坑等着我呢。其实好像也没什么太大的问题?而且除了固定IP,他们还可以宽带拨号那种。
- 交换机带宽限速配置不专业。很常见,网维如果是“严谨”一些的,脾气可能古怪,至少技术上比较钻研还是比较好的。而很多机房的交换机网维仅仅是当上班罢了,不会考虑完整的配置参数,按照要求能配置起来就是了。细节不少,会钻研一些的都是小问题,哪怕要求按照MAC地址、IP地址来配置VLAN,都会协助。而某些就很懒惰了,哪怕是你指出了说明,要求怎么个配置方法。例如如果交换机做限速,未配置突发带宽的情况。一般来说交换机对某个端口例如限速20Mbps,没有配置突发带宽之类的。具体就不多说了,可能有不少人碰上了而不自知。20Mbps带宽正常业务跑满,延迟两三百;网速测试速度不是一下子到20Mbps的,是慢慢往上探的。而正常配置下,带宽正常用满20Mbps并不会出现延迟上升的问题,测速也是瞬间就能测到20Mbps的。
- 有的机房是双向都没做好。可能是技术完全不懂,小白上岗。有一些呢是老带新,小白复制黏贴大佬留下的命令满足业务需求。结果导致出现一半的问题。上行正常占满没有延迟,而下行同样的方式正常占满延迟增加两三百毫秒。联系机房,机房给“解开了下行限制”。原本是20Mbps上下行对称限制这样,解开后下行也就只是到500Mbps,其实他们就算要限制成20,也是完全能限制好的啊。很多人可能不注意这个问题,或者注意了也不知道怎么说,这种操作非常影响网络体验,产生不必要的延迟增加、丢包。
- 空城计。一个运维管理附近的两个机房。电瓶车来回。要上架机器没人给开门。
- 刁钻的保安。现实的社会。哪怕你开一辆面包车,都能比较顺利、方便、直接地进入园区。如果你坐在某些车上,保安还能跟你打招呼。但是你如果是背着双肩包,一个人或者带着跟班想要走进来?破事多的很。什么开门时间、登记、押某证、拖鞋反复过X光。虽然我知道跟他们打好关系也不是什么太麻烦的事。不过我不想浪费时间在这上面,为了机柜整洁符合我的要求,就算我不亲自整理,也要自己亲自验收过,本身时间就很急,浪费时间精力在这种无意义无收益的与人沟通上真是糟糕。
- 然后顺带着还会形成很多毫无意义的规定。例如某机房机器进出需要出门单。需要找电信盖章然后机器才可以发出。电信只有周一到周五早9晚5上班,午饭休息2个小时,周二下午休息。电信休息的时候机器无法出门,所以东西无法带出,包括快递发出机器。但是如果你开了辆车来,或者叫了辆网约车,这就过分了,机器直接就可以带走了。
- 无意义的规定,无效的检查可以看作是对规则的遵守。但是碰上老顽固你还真没什么办法。闪存类产品其实是惧怕X光的,交通枢纽、机场的剂量都做了适当的设定,但是这种地方嘛,不谈是否对人体有害,部分产品真的是会受损的。带了整箱固态硬盘进入机房调换。为了节约时间以及便于携带提前拆好包装成两捆,50个盘。结果嘛,完全可以看得清清楚楚的东西,要你平摊在框子,过一遍X光机。大部分的固态都出现了问题,全新的固态已经测试完美的,在上机的时候,少量的硬盘blkdiscard会失败,全部的硬盘格式化速度缓慢,格式化完成挂载后读取速度缓慢,需要存储文件后才能恢复性能。如果开车过来,下来个人登记下,哪有那么多麻烦事儿。
- 维保麻烦。船新的没通过电的服务器,上架后风扇竟然有偶然性问题,偶尔转偶尔不转。当地售后分分钟就来了,进不去。只留备件风扇在门卫。我都让进,竟然无论如何就是不让服务器大厂原厂的硬件工程师进,哪怕也走同样的留存信息也不允许,机房经营的IDC公司好说歹说也进不去。
随便列举这些吧。后续有合适的机会在补充也好。