首页 > 其他分享 >《Google SRE工作手册》系列读书分享之 美图SRE团队的「稳定性运营」实践篇二(视频+文字版)

《Google SRE工作手册》系列读书分享之 美图SRE团队的「稳定性运营」实践篇二(视频+文字版)

时间:2024-07-12 11:02:34浏览次数:17  
标签:生命周期 管理 SRE 定级 故障 美图 SLA 工作手册

《Google SRE工作手册》

引言

本期分享主题是美图SRE团队的稳定性运营实践本期分享内容为「守」稳住基本盘、Q&A

一、「守」稳住基本盘

SRE体系建设指南

SRE体系建设指南

SRE稳定性建设全景图(故障生命周期视角)

SRE稳定性建设全景图(故障生命周期视角)_20230806_16913359739594860

故障生命周期管理「故障后:故障复盘」

故障生命周期管理「故障后:故障复盘」

故障生命周期管理「故障后:故障报告」

故障生命周期管理「故障后:故障报告」

故障生命周期管理「故障定性:有效分类」

故障生命周期管理「故障定性:有效分类」

故障生命周期管理「故障定责:判定原则」

故障生命周期管理「故障定责:判定原则」

故障生命周期管理「故障预算:故障分」

故障生命周期管理「故障预算:故障分」

故障生命周期管理「故障定级:通用标准

故障生命周期管理「故障定级:通用标准」

故障生命周期管理「故障定级:业务个性标准」

故障生命周期管理「故障定级:业务个性标准」

故障治理「组织支撑」

故障治理「组织支撑」

故障治理「整体框架」

故障治理「整体框架」

二、互动答疑(Q&A)

石鹏(东方德胜)

2016年加入美图,运维技术专家,美图产品SRE负责人。目前在美图负责社区、商业化、实验室、影像SaaS、创新等全线产品的运维保障工作,同时参与公司日志、监控等基础设施的建设。参与或主导过多次公司基础设施的调整、改造,在监控、灾备、故障管理、稳定性运营等方面有一定的经验和积累。业界多个技术峰会的分享嘉宾或出品人。

Q1: 你们公司中有非常多类型的业务线,他们会根据自己的业务特点去制定一套符合实际业务特点的一些标准,然后通过协商映射到通用定级标准上,以把所有的业务线拉齐到同一个水平线上,去做整个故障预算的一个管理。这个过程是不是就类似于SLA?

A1:其实我们公司内部的话好像还没有特别去强调这个SLA,因为 SLA 更多是发生在甲乙双方这种公司的合作之间,先约定了一个SLO,然后承诺要达到什么样目标,在没有达到这个目标的情况下,根据不同的程度去协商一些补偿的策略,这个可能才是SLA。然后在内部的话更多是要去考核你实际的稳定性建设的水平,或者说我们这个周期里边故障预算的余额的情况,有没有达成我们的目标,而没有说在公司内部去订一些这种明确的SLA协议。

Q2: 假如遇到一个比较严重的一个故障,在重大故障来了以后,是故障委员会提供支撑吗?

A2:我们这个故障管理委员会更多的是来解决一些故障定级阶段的一些分歧,比如故障定级是否合理、故障分的分摊是否符合实情等。实际的故障处理是SRE、基础架构、研发同学等。这个故障管理委员会里面的成员角色更多的是一些BU的负责人,在故障处理过程中可能会做一些沟通协调类的工作。

Q3: 在故障治理的框架中,故障分是像错误预算一样直接去把它用掉,每个月用光的意思吗?还是说每个月打分?

A3:我们是扣分的逻辑,跟这个Google SRE里面讲的错误预算是一样。然后如果说你这个分数扣完了,你这个周期里面的故障管理的OKR,或者叫稳定性保障的OKR 就不达标了。

本期视频回看:

SRE专委会视频号

雅菲奥朗官网:www.sretraining.cn

简介:雅菲奥朗是国内知名的IT培训和咨询公司,是SRE的实践者与引领者。我们秉承“知识创新、方法创新、实践创新”的核心理念。我们基于在多家知名企业的成功落地经验,持续引入国际先进的理念和方法论,并结合中国实际情况进行深度创新,我们拥有独创的培训和咨询方法论。雅菲奥朗致力于培养与时俱进的科技创新人才,专注于“互联网时代”的IT培训与咨询,我们帮助企业进行数字化转型,持续提升科技管理能力,赶超世界先进水平。

标签:生命周期,管理,SRE,定级,故障,美图,SLA,工作手册
From: https://blog.csdn.net/weixin_46959162/article/details/140363018

相关文章

  • 《Google SRE工作手册》系列读书分享之 美图SRE团队的「稳定性运营」实践篇三(视频+文
     引言本期分享主题是美图SRE团队的稳定性运营实践,本期分享内容为「攻」规划&运营:3大方向、2个基础、1些探索、小结、Q&A一、3大方向稳定性「监控体系梳理」稳定性「可观测性建设-整体架构」稳定性「监控大盘建设」稳定性「运维元数据+应用拓扑」......
  • 《Google SRE工作手册》系列读书分享之 多云环境下SRE工程的思考(视频+文字版)
    引言本期分享主题是多云环境下SRE工程的思考,本期分享内容为SRE在云上的变革、SRE在云上的思考、云上SRE的未来、云上SRE的福利、Q&A一、SRE在云上的变革-Elastic弹性SiteReliabilityEngineer=SoftwareEngineer+SystemsEnthusiast(Fans)站点可靠性工程师=软件......
  • 2023首届服务韧性工程(SRE)论坛分会场:数据中心运维的新发展
    2023年12月15日,2023首届服务韧性工程(SRE)论坛在杭州成功举行,大会邀请了来自通信、金融、医疗、制造行业等100余位SRE领域专业人士参加,本次大会特别设立了主题为“数据中心运维的新发展”的分会场,由广通优云和SRE专委会联合出品。邀请来自数据中心领域不同行业的产学研用的专家,就......
  • IISRESET 是用于重启 Microsoft Internet Information Services(IIS)的命令行工具。它通
    IISRESET命令起源于Microsoft开发的InternetInformationServices(IIS),这是一种用于Windows操作系统的强大的Web服务器软件。IIS早在WindowsNT3.51的时候就已经存在,而IISRESET命令则是作为管理和操作IIS服务的一部分而引入的。具体来说,IISRESET命令的主要功能是......
  • 从美图类场景,看火山引擎数据飞轮如何赋能产品增长
    伴随移动移动互联网发展以及手机拍摄能力提升,美图类APP已成为人们手机中常见的应用之一。根据广发证券发展研究中心《数字媒体行业AI系列报告:美图类APP,商业模式逐渐清晰,AIGC加速付费心智培养》显示,从行业整体流量来看,拍摄美化行业的MAU在2019年中达到峰值,2020年起随着互联网行业......
  • UE5笔记-实现Lumen实时渲染GI下的的类UCanvasRenderTarget实现多场景/自定义分辨率/方
    默认的SceneCapture不能用于实时Lumen光照模式下为了实现实时渲染GI下的的类似于UCanvasRenderTarget2D类.可以参考GameViewport类的源码尝试使用UE的渲染逻辑和数据多渲染一份视口副本到直接的FSceneView上,封装一份UCaptureRenderTarget出来从而实现一些例如自定义分辨率的......
  • Flink1.17.0-报错: java.lang.NoSuchMethodError: org.apache.kafka.clients.admin.De
    背景:启动Flink的sql-client.sh,创建Kafka的source端表,然后查询Kafka的数据时报错。报错信息:2024-06-1816:10:12org.apache.flink.util.FlinkException:GlobalfailuretriggeredbyOperatorCoordinatorfor'Source:kafka_rmc_cust_analog_u[1]'(operatorbc764cd8ddf7a0c......
  • 【Java】InetAddress.isReachable()失效的底层原因探究
    文章目录背景现象问题原因总结背景在某些场景下,我们可能需要在Java中判断到某个主机的网络是否连通,比如我们的系统中可能有业务需要录入一些主机信息,此时为了更好的用户体验,我们可能会在前端页面上提供一个拨测按钮,让用户可以在输入主机地址之后进行连通性检验,来判......
  • SRE 排障利器,接口请求超时试试 httpstat
    夜莺资深用户群有人推荐的一个工具,看了一下真挺好的,也推荐给大家。需求场景A服务调用B服务的HTTP接口,发现B服务返回超时,不确定是网络的问题还是B服务的问题,需要排查。工具简介就类似curl,httpstat也可以请求某个后端,而且可以把各个阶段的耗时都展示出来,包括DNS解......
  • 【备忘录】手动重新设置windowsRE分区,命令行方式
    手动将RE分区大小扩大500MB以管理员身份(cmd)打开命令提示符窗口。若要检查WinRE状态,请运行 reagentc/info。如果安装了WinRE,则应有一个“WindowsRE位置”,其中包含WinRE目录的路径。例如,“WindowsRE位置:[file://%3f/GLOBALROOT/device/harddisk0/partition4......