首页 > 其他分享 >心法|SRE如何制定科学有用的流程制度

心法|SRE如何制定科学有用的流程制度

时间:2023-04-20 10:47:00浏览次数:25  
标签:制度 SRE 流程 心法 Oncall 告警 变更

科学的制定流程制度是非常重要的,好的流程制度能提高生产效率、降低出错,但流程制度用不好是要阻碍创新的,甚至引起工程师的反感和抵触。

比如为了减少工程师出错,把工作的每个角落铺满精细的流程制度规范,每个制度事无巨细的几千上万字,无异于对工程师缚手缚脚,大家也背不过来,唯一的用途就是犯了错误追责任:看,有流程制度你不遵守。

事无巨细的流程制度,是反人类、反人性的,谁能记得住呢?长期积累下去,组织的能力、效率、活力都会下降,工程师成了流程制度的傀儡,成了工具人,与技术团队活跃、创新的文化截然相反,继而团队肯定要出事儿的,最后业务受损、人员离职再所难免。

但流程制度又是不可或缺的,没有流程制度,整个工作可能就是混沌的,低级错误不断,问题频发,关键要找准制定的领域,找到牵一发儿而动全身的点。制定时要围绕SRE的主线顶层目标,流程制度本身要本着数量少、质量高的原则,而且流程制度一定要简单好记、易执行,定原则而不是穷举流程细节。

例如以质量为目标定制度,参照运维质量环(故障前中后),第一是避免问题进入生产环境形成故障,第二是如若无法避免,工程师可以快速发现故障处理。这是两个最重要的节点,类似蛇的七寸,如若做好,就可以大幅减少故障数量和故障发生后的影响,达到提升质量的目标,同时为将来用DevOps承担制度做好准备,以此为例我们团队制定两个流程如下。

 

1、示例|团队变更规范(知影响、盯指标、懂进退、守流程)

变更12字方针:知影响 盯指标 懂进退 守流程

  • 变更时间

工作日 9:30~11:30,14:00~17:30

  • 原则

知其然、知其所以然

渐进式变更

  • 变更前

1)清楚变更的影响

清楚的认识到当前服务变更会影响哪些服务、哪些用户体验

2)清楚变更是否符合预期的指标

观察可用性、时延、QPS或者其他关键指标

3) 清楚变更失败的预案

回滚,或者其他方案

4)DoubleCheck

和自己的mentor或者leader做好确认

5)变更通知

必须通知到相关研发负责人以及AIoT SRE变更群

  • 变更中

1)灰度单台

发布单台,观察指标以及对应程序状态、日志,观察10分钟,确保正常再继续

2) 全量其他

渐进式全量同机房其他节点、其他机房

3)观察指标

全程实时关注变更后相应业务指标的变化

4)关注报警

紧盯报警信息,有相关报警及时跟进

5)及时回滚

变更中发现问题,第一时间操作回滚

  • 变更后

1)变更总结

进度、影响是否符合预期

2) 持续观察指标至少30分钟

防止打点有延时、或者影响滞后导致未及时发现

3) 持续关注异常信息

关注相关业务群异常信息、报警是否和变更关联

2、示例|团队Oncall规范(接告警、勤通告、助恢复、做闭环)

Oncall 12字方针:接告警 勤通告 助恢复 做闭环

  • Oncall要求

主备Oncall同学需24小时接收处理告警,保持手机、飞书畅通

  • 原则

先恢复业务,再排查原因Oncall同学是故障处理的组织者

  • Oncall处理流程

1)收到告警第一时间在Oncall群通知,并@到对应研发和SRE同学

P0告警:5分钟没恢复,开启电话会议,并发到AIoT SRE群上报

P1/P2告警:5分钟没响应,飞书加急或电话通知

2)每10/20分钟在群内通报对应告警监控指标的恢复曲线

3)协助故障恢复,将查到的信息同步到群里,引导先恢复业务再排查原因

4)判断后,如影响严重,第一时间在AIoT SRE群内升级,并@高利绪

进入重大事故处理流程,由@高利绪 将事故上报质量委

5)闭环跟进,直至业务全部恢复

标签:制度,SRE,流程,心法,Oncall,告警,变更
From: https://www.cnblogs.com/netflix/p/17335909.html

相关文章

  • SRE从CMDB到SMDB的自动化探索演进——面向服务的运维
    SRE和系统运维的最大区别,我认为SRE得在系统运维的基础上研究业务,研究系统架构、产品架构,SRE面向的是用户稳定性。大型互联网系统,模块多、依赖关系和运行环境复杂,如果不了解系统架构,在出现问题时基本就是抓瞎的,不知道服务的功能,不知道到故障后对用户的影响,不知道出了问题后查哪些......
  • 2023年DAMA-CDGA/CDGP数据治理认证含金量及考试报名流程
    DAMA认证为数据管理专业人士提供职业目标晋升规划,彰显了职业发展里程碑及发展阶梯定义,帮助数据管理从业人士获得企业数字化转型战略下的必备职业能力,促进开展工作实践应用及实际问题解决,形成企业所需的新数字经济下的核心职业竞争能力。DAMA是全球唯一数据管理方面权威性认证,帮助......
  • 打渔还是晒网流程图及代码
    问题描述:中国有句俗语叫“ 三天打渔两天晒网 ”。某人从1990年1月1日起开始“三天打鱼两天晒网”,问这个人在以后的某一天中是“打鱼”还是“晒网”。设计思路:定义两个数组分别存入闰年和平年的月份。首先1990年到输入年份每一年的天数相加(闰年多加一天),之后输入......
  • NPDP产品经理小知识:端到端的流程建设与跨职能团队管理
    端到端是IT从业者们在讨论流程时经常会随口抛出来的一个名词,感觉说出来就有一种高大上的感觉。但究竟什么是端到端?端到端的流程建设与跨职能的团队管理有着怎样的关系,通过端到端的跨职能团队假设又能解决什么问题呢?今天我们就来聊一聊端到端的跨职能团队的建设与管理。【如何理......
  • 简单介绍十几款常用的画架构图流程图的软件
    简单介绍十几款常用的画架构图流程图的软件draw.iodraw.io是开源免费的在线画图工具,还提供桌面版本。特性:实时协作;支持在线离线版本;存储支持多种方式:GoogleDrive,OneDrive,GitHub,GitLab,Dropbox等;许多丰富的图标库。ProccessOnProccessOn是一款优秀的国产在线协......
  • llvm后端disassembler流程
    一、注册 在添加\(disassembler\)时,在llvm/lib/Target/XXX/Disassembler/XXXDisassembler.cpp中会通过\(RegisterMCDisassembler()\)将该\(pass\)进行注册。二、调用(1)在\(XXXDisassembler.cpp\)中的\(getInstruction(...)\)函数重新定义了基类\(MCDisassembler\)......
  • 网络爬虫技术是什么,网络爬虫的基本工作流程是什么?
    大量的数据散落在互联网中,要分析互联网上的数据,需要先把数据从网络中获取下业,这就需要网络爬虫技术。网络爬虫是搜索引擎抓取系统的重要组成部分,爬虫的主要目的是将互联网上网页下载到本地,形成一个或联网内容的镜像备份。网络爬虫的基本工作流程如下:......
  • Flowable6.x导出查看跟踪流程图
    项目源码仓库Flowable诞生于Activiti,是一个使用Java编写的轻量级业务流程引擎。Flowable流程引擎可用于部署BPMN2.0流程定义,可以十分灵活地加入你的应用/服务/构架。本文介绍4种绘制流程图的方式,前3种是在后台绘制静态图(image/png格式),以Stream形式返回前端显示。最后1种是后端......
  • Flowable6.x导出查看跟踪流程图(续)
    书接上回项目源码仓库无论是待办、已办,亦或是流转中、已结束的流程实例,通过使用JS绘制SVG格式的交互式流程图,与以上篇博文中三种方式相比,在效果上都具有明显优势。运行效果如下图所示:整合、改造Flowable中displaymodel页面从flowable官方发布包获取前端源码下载官方数据包......
  • ITSS认证运维服务各等级申报要求与流程
    一、ITSS的定义ITSS是信息技术服务标准,InformationTechnologyServiceStandards的缩写。是在工业和信息化部、国家标准化委的领导和支持下,由ITSS工作组研制的一套IT服务领域的标准库和一套提供IT服务的方法论。二、ITSS认证适用对象金融与保险机构、互联网企业、电信运营商、工......