首页 > 其他分享 >运维KPI如何考核

运维KPI如何考核

时间:2024-04-29 18:00:50浏览次数:29  
标签:可靠性 运维 SRE 系统 考核 KPI

一直喜欢养绿萝,这种植物你只要十几天不浇水,就会枯萎。。。等到某天你又把它浇水了,你会发现,立刻就会生机盎然。。。

在众多软件职业中,一直以为运维的KPI事最难考核的,所以也谈谈自己的理解。。。

运维KPI

运维,常人的理解就是一个扛锅的,不停的抗锅,抗的锅也越来越大,抗的锅也越来越重,抗的锅也越来越难甩掉。。。

造成这种窘境的原因是什么?

运维,在传统中,痛点是啥。。。是一个成本部门,基础设施要成本,各种维护各种故障各种变更,会损害整个团队的形象,会损害整个公司的利益,会损害整个公司的社会形象。。。

关键时刻掉链子,出了故障不能及时解决,没出故障的时候天天在那闲着。。。

如何改善这种窘境。。。实施落地难度极大,相当大,非常大。。。

回忆总想哭。。。回忆总是像耳光,一巴掌一巴掌打在脸上,疼不疼。。。多回忆几次就好了,慢慢。。。就不疼了,哈哈

各种HRSB部门总是认为运维部门和其他部门,也可以按照一般的考核来进行考核,但是运维的工作性质却不一样,所以呢,运维也是最难考核的一种。。。

考核运维那么难,那么可以将运维和研发进行收编统一管理,从而发展出了SRE这个职业。。。

为什么SRE这个职业不能单纯的成本部门?

SRE主要的关注点在于可靠性,也就是一个软件能持续运行的时间,时间越长越好。。。Emmm,持久性?

关注可靠性,从而会有很多创造性的举动,而不是被动的进行运维,被动的进行处理问题,被动的进行各种策略的调整。。。

SRE可以化身为研发,研发也能转变成SRE,因为是使用软件研发的观点来进行运维,这样两者的目标是同一的,也就是都是为了可靠性,从而可以大大节省开发和运维的沟通时间,磨合是为了更好的沟通。。。内耗了解一下,开发骂运维傻逼,运维骂傻逼。。。

跟聪明人说话,一句话我们就懂即将要做什么,未来会如何发展,以后我们如何改进。。。跟傻逼说话,拉低整个人的智商,降低整个人的身价。。。

SRE如何从成本消耗部门转变为生产部门的?

能开发出更好的系统来辅助配合业务系统,例如监控系统,定制化的监控;搭建更好的系统来优化目前的系统,延迟优化等,从而节省成本。。。

其实最主要的东西,就是运维的关注点发生改变,原来你可能每天处理各种工单,处理各种告警,处理各种故障,处理各种变更,那又如何?。。。凌晨四点的太阳应该经常看到吧。。。

从各种杂乱的琐事,屁事,破事里面抽身出来,关注可靠性,其实挺难的。。。因为太多的琐事来进行中断,一个中断就要进行上下文切换,就要陷入到内核,开销太大了。。。

纵观每天的每件事,我们都是为了保证可靠性。。。变更审核的流程越来越长,故障处理的时间越来越少,告警处理的越来越及时,这些策略,充其量就是保护运维的一种方式。。。但是对于运维来说,这种精神压力也是越来越重的,垃圾系统越来越多,呈现出失控的状态。。。

关注可靠性,从而可以把精力从人的身上拉回到系统中。。。所谓的铁打的营盘,流水的兵。。。其实这种转变也很难,毕竟百分之九十的运维没有开发经验。。。

以前一直关注人,核心的人,最关键的人,然而,并没有什么卵用,太依赖了,想去除这种依赖,那么只能打造更加强大的系统,从而SRE可以在当前的系统上进行越来越多的改善,构造自动化系统,打造可靠性越来越强的系统。。。人员流失?无所谓,因为系统本来就很可靠,少了谁,来了谁,可靠性都在这里摆放着。。。

纵观所有的KPI,考核来考核去,莫不是为了业务更好的发展,命运之轮的演练。。。

用上班时间考核?不合适,有的时候躺在床上也是在处理问题。。。用处理的工单数来考核?不合适,工单数量太多只能说明系统太难用。。。用处理的告警,故障数量来衡量?不合适,这种只能说明系统是一个不可运维的系统

考核的要点,能为系统增加多少可靠性,那么KPI就怎么打!!!其实这个也很难,非常难,相当难。。。

SRE开发了一个系统,增加了系统自动化的程度,KPI优秀。。。SRE处理了一个故障,发现了系统的一个BUG,推广到所有的系统,反馈经验给研发部门,彻底修复BUG,KPI优秀。。。总体的宗旨就是:提高了系统的可靠性,那就是优秀。。。

如果我不会开发,我怎么提高我的KPI,如何到达优秀?

配合研发提高系统的可靠性。。。可以观察监控系统的性能,进行分析,提供相关的数据给研发,从而进行改进,例如观察各种慢SQL,研发进行修改优化。。。可以观察监控系统的告警数量,反馈给研发,进行改进,从而减少系统告警的数量。。。可以观察监控系统的流量,时间延迟,反馈给研发,预测未来流量,是否要进行扩容,是否要进行优化系统。。。

命运之轮的演练,发现系统的问题,打造运维宝典,提高系统的可靠性。。。第一次演练,所用时长,出现的问题,改进。。。第二次演练,换一种方式,所用的时间,出现的问题,改进。。。第三次演练,换一个团队,所用的时间,出现的问题,改进。。。随时准备,提高警觉性,掌控服务的状态,掌握系统的可靠性。。。

运维的KPI的出现,是为了打造一个可靠性达到预期的系统;运维的KPI出现,是为了打造一支强力之兵。。。以战养战,还是休养生息?

其实如果运维是一个成本消耗部门,还有一个非常尴尬的事儿,就是随着时间,每个人的能力都有所增长,换句话说,每个人的工资也要增长,一个成本消耗部门,成本越来越高。。。这也就是为啥要裁人换血的原因。。。为应对这种情况,只能是运维的人员数量不随着系统,不随着变更,不随着琐事的增多而线性增多。。。所以SRE的出现,也会解决这种问题,打造的自动化程度越来越高,能处理的问题,能接手的系统,成本都在预期范围之内。

考核运维考勤的KPI,都是傻逼制定的,这种傻逼一定要怼,怼到死。。。嗯。。。最终受伤害的只会是自己,但是不伤害一下,怎么成长,怎么见识一下人生的套路。。。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。 原始发表:2018-12-22,如有侵权请联系 [email protected] 删除

标签:可靠性,运维,SRE,系统,考核,KPI
From: https://www.cnblogs.com/gaoyanbing/p/18166399

相关文章

  • IT维护部门的绩效考核怎么做?
     又到了年末,每年一度的考核又要开始了,王经理也越来越紧张,作为公司IT系统维护部门的领导,他是有苦说不出。费力不讨好   在公司里,维护部门一直是一个弱势部门,人数不少,整天也没闲着,围着公司团团转,一旦有需求还都是急活,各个都是领导,真是忙的脚打后脑勺。可是就算这么忙,公司的领......
  • 为什么基于k8s进行二次开发的文章比较少,而更多是运维或者是直接部署项目到k8s集群上?
     为什么基于k8s进行二次开发的文章比较少,而更多是运维或者是直接部署项目到k8s集群上? Kubernetes作为一个容器编排调度工具,不仅仅成为了容器编排调度事实上的标准,而且朝着云原生操作系统演进。混合多云基础设施的差别以及企业内部复杂的需求,Kubernetes是如何......
  • 一些运维技巧-抖音
    批量删除500万个文件rsync-av--deleteempty/demo/--exclude-from=exclude.txt#rsync快速通用的远程和本地文件复制工具#empty/源目录空目录,需要带/#demo/目标目录500万个文件目录,需要带/#--delete从目标目录中删除不在源目录的文件#--exclude-fr......
  • 半导体机台文件导出,如何实现统一管理减轻运维压力?
    半导体机台在半导体制造过程中会产生多种数据,这些数据对于设备的运行、监控、优化和故障诊断等方面都具有重要意义。以下是半导体机台可能产生的一些主要数据类型: 工艺控制数据:这包括在制造过程中的各个工艺步骤(如光刻、蚀刻、沉积等)中产生的数据。这些数据反映了制造过程的稳......
  • 01-linu核心基础-02运维基础重要概念
    ip地址IPv4(第四版本的IP协议)是构成现今互联网技术的基石协议查看自己的IP(公网)访问该网址、即可得知自己在互联网中的IP地址。http://www.net.cn/static/customercare/yourip.aspIP地址理解Ip地址由两部分组成,网络部分+主机部分网络部分指的是同一个网段、好比咱们这间教室......
  • 云计算运维day3
    云计算运维day3花括号用法一次性在同级目录,创建多个文件关于进程号第二个数字是进程号id,不断变化表示是每一次都生成了新的进程,也就是该grep是临时生成的。mkdir{hx,wjq,hw}rm{hx,wjq}touch玩家{1..100}.log压缩和解压缩的概念打包,默认是没有压缩功能,不节省磁盘空间......
  • 联通为客户提供运营商级机房环境存放主机设备及运维管理
    中国联通主机托管服务是面向企业和个人客户的一项专业级数据中心服务。该服务致力于为客户提供一个安全、稳定、高效的运营商级机房环境,用于存放主机设备,并提供全方位的运维管理。服务内容机房环境提供:提供专业级的运营商机房,确保设备运行环境的安全与稳定。机房采用先进的......
  • helpdesk桌面运维常见问题解决
    helpdesk是一套帮助IT团队管理IT工单生命周期、自动化日常工作、优化工作流程的软件或软件集合,它可以帮助IT团队提高生产力、降低成本、改善服务水平和客户体验。 在现代企业中,helpdesk桌面运维是一项至关重要的工作,helpdesk团队负责处理员工或客户在日常工作中遇到的各种技术......
  • 一份完整的运维方案
    一、服务内容一、服务目标1、本公司对弱电系统(包括机房、门禁、监控、停车场系统、园区网络等等)提供系统设备的定期维护、保养、检修及紧急故障处理工作,确保整个弱电系统的稳定运行。2、通过运行维护服务的有效管理来提升用户弱电系统的服务效率,协调各业务应用系统的内部运作,改......
  • linux运维常用命令总结
    1.tarzcf打包目录时,排除其中的一些目录或者文件tar--exclude=dir1--exclude=dir2--exclude=file1-czvfarchive.tar.gzsource_directory 2.yum只下载不安装包yum-yinstallnfs-utilsrpcbind--downloadonly--downloaddir/home/nfs 3.查看本机出网IP地址......