首页 > 其他分享 >SRE接手新业务首要工作:运维准入测试

SRE接手新业务首要工作:运维准入测试

时间:2023-04-22 17:32:54浏览次数:64  
标签:运维 接手 SRE 研发 准入 测试 CTO

如果接手的是一坨随时可能散架的破车,就算SRE有通天之能,也很难通过运维手段给变成布加迪威龙。接手的时候一定要做好准入测试!很多公司会有运维准入规范,但是通常缺少运维准入测试,导致了后续诸多背锅问题。

前言

你可能会遇到下面的问题:

  • 告诉研发做架构设计的时候要叫上运维做 review,研发经常忘记
  • 架构上明明有问题,业务方说时间要求紧迫,先上线再慢慢优化,导致运维捏着鼻子运维这些残次品,而且每次都这样
  • 明明是软件设计问题,出了问题首先要抓的是监控是否到位,运维响应是否及时,运维人员心里苦
  • 架构设计看起来是完善的,但是到了线上实际跑的时候,却没有按照预期的行为来,单机挂了服务就受影响

其实研发也不是要跟运维对着干,只是有些事情研发可能没想到,或者有些事情虽然想到了,但是迫于各方面的因素没有落地。


解法

你需要:运维准入测试!

如之前的文章所述,运维总监大概率是CTO Core团队成员,需要跟CTO达成这个流程要求,然后在Core团队例会上,由CTO颁布这个要求。让运维总监去推动平级的研发负责人,也不是不行,只是费劲,而且有些研发负责人未必配合,而CTO就是名正言顺管这事的,所以,在其位谋其政,请各位CTO不要尸位素餐。


逻辑拆解

因为有“运维准入测试”这个环节,而且是上线之前的必走流程,研发人员肯定希望一次性通过,所以会提前了解要测试哪些内容,有什么要求,会主动来找SRE咨询,这样SRE工作就好推了。

需要明确,如果过不了准入测试,就不能上线,除非研发负责人审批通过,CTO审批通过。当然,即使审批通过,残次品上线了,出了问题也需要研发OnCall,SRE辅助,即稳定性第一责任人变成了研发,SRE不背这个锅。

测试分功能测试、性能测试、稳定性测试、安全测试。SRE需要提供一个类线上环境,让研发把服务部署上去,QA提供功能测试报告、性能测试报告,这个性能测试报告是容量管理的重要依据。安全测试由专职的安全工程师来做,出具安全测试报告。稳定性测试则由运维人员来做,就是混沌工程,搞挂某个机器,把机器的CPU跑满、IO跑满之类的,看看服务是否受影响,是否可以自动恢复,恢复时长如何,是否需要提前制作预案。要做稳定性测试得有可观测数据,衡量服务的健康状况,这个过程中,顺便也就把服务的SLO定出来,相关的核心监控指标定出来,可观测性数据体系建立起来。

另外,生产环境其实也应该实施混沌工程,不定时搞点事情。一个是看是否能快速定位问题,可观测体系建立的如何,一个是看故障响应流程和及时性,以及预案完备性。


小结

其实,我倒不是要站在运维的角度难为研发。而是作为IT技术团队,要提供给业务方一个稳定可靠的技术产品,这些都是必备的。业务成功,大家才能成功,业务成功需要有靠谱的技术产品。说到底,大家都是栓在一条绳上的。

标签:运维,接手,SRE,研发,准入,测试,CTO
From: https://blog.51cto.com/ulricqin/6215414

相关文章

  • 阿里云1+X云计算开发与运维实战—— 使用负载均衡实现https与http的混合访问
    实验概述    互联网巨头雅虎官方对外发布消息,承认在2014年的一次黑客袭击中,至少5亿用户的数据信息遭窃。此次事件让我们再次意识到网站安全的重要性,网站加密防护的必要性。我们可以使用HTTPS协议对网站进行全站加密,但是,大部分用户已经习惯直接输入域名(即使用 HTTP 协议)访问网......
  • 阿里云1+X云计算开发与运维实战——负载均衡使用初体验
    本实验通过使用阿里云负载均衡SLB以及对负载均衡SLB后端服务器ECS的权重进行修改,可以快速解决上述的问题。实验目标 完成此实验后,可以掌握的能力有:配置负载均衡SLB的监听规则,并将ECS实例部署到SLB后端;通过设置负载均衡SLB后端服务器ECS的权重值,分配用户访问后端ECS实例的比例。背景......
  • K8s 日志高效查看神器,提升运维效率10倍!
    通常情况下,在部署了 K8S 服务之后,为了更好地监控服务的运行情况,都会接入对应的日志系统来进行检测和分析,比如常见的 Filebeat+ElasticSearch+Kibana 这一套组合来完成。虽然该组合可以满足我们对于服务监控的要求,但是如果只是部署一个内部单服务用的话,未免显得大材小用,而且......
  • SRE们,请不要小看了 排班OnCall
    GoogleSRE的书中提到了一个点,说要能够把SRE的工作落地好,实践好,做好排班OnCall是其中关键一环。很多人不理解个中道理,本文会尝试解释一下底层的逻辑。先来看一下Notion的解释:告警排班OnCall是指将系统的告警按照一定的轮换方式分配给运维人员值班处理。这种制度可以带来以......
  • 从小米小爱业务中来到其他业务中去——AiFault运维中台设计实践
    “ AiFault是我们AIoTSRE团队研发的插件化智能应用运维中台,从0到1孵化自小爱一线运维实战,旨在用DevOps思想和工具化思维,系统全面的解决应用运维的各种问题,目标是能够承载一套完整的运维体系,最终实现一站式智能运维。”生产力决定生产关系,到某个阶段,生产力要继续提升,就必须改变......
  • 小米AIoT SRE龚同学入职阅博笔记——SRE入门
    为了让团队同学对SRE有个统一的认识,有一些共同的套路和章法,尽量避免在工作中产生价值观和工作思路的矛盾,我一般会让新入职的同学读一下《入职必读》的几篇博客,1是提前对我们有个了解,2是告诉他们我们这的SRE要做什么和怎么做,3是便于入职后快速融入工作、团队,减少矛盾提高协作效率,最......
  • 心法|SRE如何制定科学有用的流程制度
    科学的制定流程制度是非常重要的,好的流程制度能提高生产效率、降低出错,但流程制度用不好是要阻碍创新的,甚至引起工程师的反感和抵触。比如为了减少工程师出错,把工作的每个角落铺满精细的流程制度规范,每个制度事无巨细的几千上万字,无异于对工程师缚手缚脚,大家也背不过来,唯一的用途......
  • SRE从CMDB到SMDB的自动化探索演进——面向服务的运维
    SRE和系统运维的最大区别,我认为SRE得在系统运维的基础上研究业务,研究系统架构、产品架构,SRE面向的是用户稳定性。大型互联网系统,模块多、依赖关系和运行环境复杂,如果不了解系统架构,在出现问题时基本就是抓瞎的,不知道服务的功能,不知道到故障后对用户的影响,不知道出了问题后查哪些......
  • 中船互联与嘉为科技共同打造“IT运维管理”融合解决方案
    2023年4月4日,中船工业互联网有限公司(简称“中船互联”)与广州嘉为科技有限公司(简称“嘉为科技”)于广州签署战略合作协议,共同打造“工业互联”与“IT运维管理”融合的解决方案,在工业4.0时代助力企业实现数字化整合,加速智能制造进程。中船互联是国内海洋科技工业领域首个工业互联网平......
  • ITSS认证运维服务各等级申报要求与流程
    一、ITSS的定义ITSS是信息技术服务标准,InformationTechnologyServiceStandards的缩写。是在工业和信息化部、国家标准化委的领导和支持下,由ITSS工作组研制的一套IT服务领域的标准库和一套提供IT服务的方法论。二、ITSS认证适用对象金融与保险机构、互联网企业、电信运营商、工......