首页 > 其他分享 >一个人管理 4 万台服务器,看看大家怎么说

一个人管理 4 万台服务器,看看大家怎么说

时间:2024-09-03 16:24:03浏览次数:11  
标签:运维 万台 看看 硬件 机房 服务器 设备

今天看到这样一个问题:"一个运维可以管理4万台服务器吗?"

一个人管理 4 万台服务器,看看大家怎么说_硬件故障

 

问题地址:https://www.zhihu.com/question/386653243

背景介绍

一个人管理 4 万台服务器,看看大家怎么说_硬件故障_02

 

看到这条评论我惊呆了,脑子有些懵,我想问问真的一个人可以管理4万台服务器吗?不论是实例还是物理机都算。国内哪些厂商有这么大规模的服务器机群和集群?大厂商真的是一个人可以做开发测试上线维护整条流水线吗?

回答

整理了几个不错的回答,分享一下。

Hi峰叔的回答

有4万台服务器的公司,整个运维团队也起码50⼈了。如果是⾃建IDC,这50⼈⾥⾯会有10⼈是专⻔搞机房、⽹络、服务器、存储等底层架构,即IaaS层。如果是使⽤公有云服务,那么可以省了这10个⼈。在物理架构IaaS层上⾯有PaaS,可能这50⼈⾥⾯⼜有10个⼈专⻔做⾃动化平台、发布、监控、DB 管理、容器化 、虚拟化等。再往上到业务层是业务运维负责,可能每2、3个⼈负责⼀个⽐较⼤的垂直型业务,⽐如微信⾥⾯的⽀付、淘宝⾥⾯的订单管理等等。然后这2、3个业务运维⾥⾯,通常会在简历⾥⾯这样描述⾃⼰ 

xxx业务核⼼运维负责⼈,最⾼并发达到QPS xx万,独⽴维护超过4万台机器,全年可⽤性超过 99.99% 

那么问题来了:“这⾥所谓的⼀个⼈,真的是⼀个⼈吗?”

匿名用户的回答

10年以上老运维,目前管理着近1000台物理机,三机房托管的,每年新增约100台,报废约20台左右。以稳定和成本控制为核心,负责IDC上架规划,网络规划,设备采购,上架部署,安装交付,主要工作如下:每年底至少花一个月时间做预算,包括IDC租赁,带宽,专线,设备需求,过保设备备件……设备硬件故障维护,每月大约30起左右设备硬件故障,硬盘及内存是最多的,其余是主板,CPU,风扇类。一些重要业务如数据库类,可能会影响业务。处理步骤目前还没自动化,打算做人不够(在保自动收集日志提交报修,过保直接发机房维护工单)采购上架每季度一次,从发起到交付,耗时耗力,交换机光模块够不够,机柜空间是否可以继续上架不超电,跳线怎么尽可能短一点?CPU一直C0机器怎么分布?录取CMDB手工信息有点多……没有自动化系统,机器类别太多了,后续规范下可能会好很多。资源管控,申请资源后下发权限,特殊类监控需求,资源变更,使用跟踪……没有自动化,在弄全流程资源管理。网络类现在有专门网络管理员了,可以不用管了,这部分工作接入的话需要一部分精力。哦,我还管各类中间件,就我一个人管,跑去找领导把中间件甩出去了一部分。就这么说吧,这么多规模的机器,仅仅一个硬件故障,晚上电话告警,即使如硬盘故障有RAID不用处理都要累死人。每个月工时300左右。如果4W台虚拟机应该会好一点,不过没搞过不知道,以前搞过最大规模虚拟机就3000台,业务比较单一,Puppet搞定了。

木村·星辰的回答

我一个人管6000台物理机。硬件上什么部位报警就换什么,换了不管用就整机送修。软件上管到开出指定数量的kvm,或者装上指定的docker镜像。网络上交换机全是trunk,机器上kvm/docker配置到指定的VLAN里;路由器不管,运营商来处理BGP。机房只扫地不擦灰。数据迁移有空就自己做,没空就叫业务部门做或者往后拖,自己做也就打包释放一下。上班时间自由,报警72小时内处理好就行,随便什么时候去。

三囧的回答

不可能,这个数量的服务器,单纯硬件一个人都管不下来,更别提其他的方面。4万台服务器,加上配套的交换机、路由器、存储设备、ups电源、空调、安全设备、机房防火设备。这个设备的数量是很恐怖的。就算单台设备出现问题的概率很小,数量上去以后,出问题几乎成了必然。光每天处理硬件问题一个人就搞不定。每个硬件还有使用寿命,等使用寿命到的时候需要更换。到更换的时候,一个人更本搞不定这个数量。设备都是一批一批来的,更换也是一批一批的。让业务停着等你慢慢换设备怎么可能?这个数量肯定不会是简单的系统,要过等保吧。要按照等保的要求管理机房,不是简单的管个设备能用就行,管理要有制度,要有流程,还要制定安全策略。这些东西就算你是大牛,一个人全能搞定,但是总要花时间的吧,搞一次测评,一两个月就没了。你还有时间管其他的?我觉得那个评论的人是一个管4万台服务器的团队中的一个人。至于他是不是有权限管4万台服务器,我是不信的,正常的运维不可能把那么多服务器全权交给一个人。肯定要分权,不同的人管不同的类别的设备,动服务器也要有人审批。如果说,我是一个管电源的,电源上面插着4万台服务器,我也算管了4万台服务器的话,那当我没说。

karlestira的回答

4w台物理机?光是给领导汇报工作都能整死你了。另外4w台物理机是个什么概念?常见的纯CPU双路2U机器都得500w功耗,4w台就是20MW,算上各种UPS、空调、存储、网络,可能得去到50MW。商业电一度一块的话这个机房满载一天就是100w往上的电费。都这么大家伙事了,多雇两个人它不香吗?

标签:运维,万台,看看,硬件,机房,服务器,设备
From: https://blog.51cto.com/u_12208527/11908904

相关文章

  • php获取FTP服务器中文件内容返回给前端
    有一个需求是访问存储在群辉SynologyNAS上的图片,https://ip:port/path/to/image.jpg,用浏览器打开会出现“您的连接不是私密/安全连接”错误。网上检索资料发现可能是因为缺少SSL证书的关系。引用https://www.cloudflare-cn.com/learning/ssl/connection-not-private-explaine......
  • jmeter监控服务器工具jp@gc - PerfMon Metrics Collector(ServerAgent)
    需要在被测服务器上安装ServerAgent。然后在jmeter上安装插件jpgc-StandardSet一、在服务器上安装ServerAgentSeverAgent:这个工具,可以和jmeter集成,在jmeter的GUI界面可以看到数据。链接:https://pan.baidu.com/s/1k3xlXk35YfPmS17-2ZFBnA?pwd=5s4n提取码:5s4n......
  • uniapp 实现瀑布流布局 (网上找不到合适的方法 就进来看看我的吧)
    最近自己在开发一款小程序,目的是为了学习,包括后端也是我自己在写后端用的是Ruoyi框架小程序这边呢原生的我会uniapp久闻大名却从未试手于是选择了uniapp写微信小程序话不多说内容展示的时候我选择了使用小红书咸鱼等都在使用的瀑布流布局,出于两个原因1个人觉得很好......
  • uniapp 微信小程序获取头像,上传服务器
    html头像UI<buttonclass="user-avatarflex-center"open-type="chooseAvatar"@chooseavatar="onChooseAvatar"><imageclass="img":src="showAvatat()"mode="scaleToFill"/>......
  • 5分钟部署Prometheus+Grafana批量监控Linux服务器
    文章目录一键安装NodeExporter安装prometheus创建数据存储目录创建配置文件下载运行Prometheus安装Grafana创建数据目录下载运行Grafana配置Grafana监控Linux服务器登录首次登录后设置密码添加数据源选择prometheus填写prometheus地址导入模板辛苦您也关注下公众号,感谢!本文......
  • php邮箱服务器怎么搭建?如何构建服务器?
    php邮箱服务器配置教程指南?php邮件服务器如何搭建?搭建一个稳定高效的php邮箱服务器,不仅可以提升邮件传输的效率,还能增强数据的安全性。那么,如何着手搭建这样一个服务器呢?AokSend将详细探讨php邮箱服务器的搭建步骤。php邮箱服务器:配置环境配置php邮箱服务器环境是搭建过程......
  • 勒索病毒解密宝典第6篇:云服务器被勒索病毒攻击
    随着数字化转型的加速,越来越多的企业会倾向于把业务搬到云上。云服务器已成为企业和个人存储和处理数据的重要平台。然而,这种便利性也带来了新的安全挑战,尤其是勒索病毒的威胁。本文将深入探讨近期非常多的云服务器被勒索病毒加密的原因,如何解密以及预防手段。这些被攻击的云服......
  • 第十九章 rust服务器开发:axum框架详解
    注意本系列文章已升级、转移至我的自建站点中,本章原文为:rust服务器开发:axum详解目录注意一、前言二、基本使用三、路由定义四、参数提取五、响应体六、共享状态七、中间件一、前言因为rust拥有着极高的性能,加上tokio这个非常优秀的运行时,这使得rust很......
  • nginx服务器如何配置多虚拟站点及其它
    nginx服务器如何配置多虚拟站点,操作如下:1、配置文件目录:除了nginx服务器根目录下的nginx.conf文件外,其它多站点一般配置在目录"conf/vhost"下,演示如下:目录图:目录列表图:站点配置文件以“.conf”为后缀,名称一般按域名来起就可以了,多站点创建不同的.conf文件。2、配置站点,......
  • 计算机运维工程师有哪些无效行为,快看看你中了几个?
    前言随着IT技术和业务的发展及各式各样安全漏洞的涌现,运维与安全这两个专业日渐交融,人们对运维安全的重视程度越来越高,于是逐渐出现了一个新的交叉领域叫“运维安全”。黑客、白帽子忙于挖掘运维安全漏洞,企业忙于构建运维安全体系,一时间无数漏洞纷至沓来,座座堡垒拔地而起......