首页 > 其他分享 >SRE们,请不要小看了 排班OnCall

SRE们,请不要小看了 排班OnCall

时间:2023-04-20 14:06:01浏览次数:46  
标签:团队 运维 SRE 排班 OnCall 值班

Google SRE 的书中提到了一个点,说要能够把 SRE 的工作落地好,实践好,做好 排班 OnCall 是其中关键一环。很多人不理解个中道理,本文会尝试解释一下底层的逻辑。

先来看一下 Notion 的解释:

告警排班OnCall是指将系统的告警按照一定的轮换方式分配给运维人员值班处理。这种制度可以带来以下好处:

  1. 更快的响应时间:OnCall制度可以确保有专人负责处理系统告警,减少了响应时间和修复时间,提升了系统的可用性和稳定性。
  2. 提高运维效率:OnCall值班制度可以让运维人员更好地分配工作,避免重复工作和任务交叉,提高运维效率和工作质量。
  3. 增强团队凝聚力:OnCall制度可以促进团队成员之间的交流和合作,增强团队凝聚力和协作能力,提高团队整体水平。

建议SRE落实OnCall制度的原因如下:

  1. 保障系统稳定性:在复杂的IT环境中,系统的稳定性是至关重要的。OnCall制度可以让系统故障及时得到处理,保障系统的稳定性和可用性。
  2. 提高运维质量:OnCall制度可以让运维人员更加专注于工作,减少了干扰和打扰,提高了运维质量和效率。
  3. 增强团队协作:OnCall制度可以让团队成员更好地协作和合作,共同应对系统故障和问题,提高团队整体水平。

因此,建议SRE落实OnCall制度,以确保系统的稳定性和可用性,提高运维质量和效率,并增强团队协作和凝聚力。

下面是我的个人看法:

利于团队稳定

每个人都希望干点舒心的活,值班 OnCall 显然不是个舒心的活,比如我们现在做夜莺监控社区的答疑,有很多人不懂得《提问的智慧》,有的时候会让值班人员非常恼火。不舒心的事情只让特定的人干,那这个人就离离职不远了,而排班就是一个解决这类问题的手段。咱们轮换着来,比如一周一次,值班的这一周确实不太开心,但是总有个奔头。

利于知识沉淀

值班的这个人,在值班期间肯定是希望有看得见的产出的,值班期间最看得见的产出就是沉淀下来的文档、FAQ等,当然,如果能沉淀出自助化服务的平台,那自然是更好不过。因为大家都不想值班,那就会想办法改进,每个人都去值班就可以让所有人都有动力做出改进。

提供更好的支持服务

当这个人确定本周值班的时候,他就不去做其他事情了,时刻准备着帮助用户解决问题,对用户来说,反应效率更快了,体验也就更好了。如果没有排班,大家就容易相互踢皮球,说我有这个事情要忙,他有那个事情要忙,客户的工单却迟迟无法解决。如果是 SRE,通常会配备专门的值班手机,对于故障的响应会更好,值班手机的短信提醒铃声都是一首歌。。首歌。。歌,巨长,声音贼大,确保值班人员不遗漏问题。

那有没有什么工具可以支持排班这个事情呢?

其实最简单的就用个共享的表格也能做,就是稍微麻烦点,比如平时排了个班,节假日想调整,某人临时有事想换班调班,而且轮换的时候也没有自动通知提醒,管理起来都相对比较费劲。业内也有一些产品可以做这个事情,比如 PagerDuty 和 FlashDuty,排班功能都是免费的,各位可以尝试一下。最终的效果,一般大概都是长这个样子:

SRE们,请不要小看了 排班OnCall_FlashDuty

标签:团队,运维,SRE,排班,OnCall,值班
From: https://blog.51cto.com/ulricqin/6209508

相关文章

  • 小米AIoT SRE龚同学入职阅博笔记——SRE入门
    为了让团队同学对SRE有个统一的认识,有一些共同的套路和章法,尽量避免在工作中产生价值观和工作思路的矛盾,我一般会让新入职的同学读一下《入职必读》的几篇博客,1是提前对我们有个了解,2是告诉他们我们这的SRE要做什么和怎么做,3是便于入职后快速融入工作、团队,减少矛盾提高协作效率,最......
  • 心法|SRE如何制定科学有用的流程制度
    科学的制定流程制度是非常重要的,好的流程制度能提高生产效率、降低出错,但流程制度用不好是要阻碍创新的,甚至引起工程师的反感和抵触。比如为了减少工程师出错,把工作的每个角落铺满精细的流程制度规范,每个制度事无巨细的几千上万字,无异于对工程师缚手缚脚,大家也背不过来,唯一的用途......
  • SRE从CMDB到SMDB的自动化探索演进——面向服务的运维
    SRE和系统运维的最大区别,我认为SRE得在系统运维的基础上研究业务,研究系统架构、产品架构,SRE面向的是用户稳定性。大型互联网系统,模块多、依赖关系和运行环境复杂,如果不了解系统架构,在出现问题时基本就是抓瞎的,不知道服务的功能,不知道到故障后对用户的影响,不知道出了问题后查哪些......
  • 护士排班
       护士排班问题是一种经典的优化问题,它的目标是为医院的护士制定一个合理的排班计划,以确保医院的正常运转。在本篇文章中,我们将介绍护士排班问题的背景、算法思路以及实现方法。一、背景    护士排班问题是一种NP难问题,它的目标是为医院的护士制定一个合理的排......
  • MFC-IsRectEmpty判断一个矩形是否为空矩形
     HDChdc=::GetDC(m_hWnd);RECTrect={10,10,100,100};BOOLb=IsRectEmpty(&rect);//返回值:如果矩形为空,则返回值为非零。如果矩形不为空,则返回值为零CStringstr;str.Format(_T("b=%d"),b);::OutputDebugString(str);  ......
  • Uber SRE实践:运维大型分布式系统的一些心得
    本文是Uber的工程师GergelyOrosz的文章,原文地址在:https://blog.pragmaticengineer.com/operating-a-high-scale-distributed-system/在过去的几年里,我一直在构建和运营一个大型分布式系统:优步的支付系统。在此期间,我学到了很多关于分布式架构概念的知识,并亲眼目睹了高负载和高......
  • Uber SRE 实践:运维大型分布式系统的一些心得
    本文是Uber的工程师GergelyOrosz的文章,原文地址在:https://blog.pragmaticengineer.com/operating-a-high-scale-distributed-system/在过去的几年里,我一直在构建和运营一个大型分布式系统:优步的支付系统。在此期间,我学到了很多关于分布式架构概念的知识,并亲眼目睹了高负载......
  • Google SRE 定义了四个需要监控 延迟(Latency),流量(Traffic),错误(Errors)和饱和度(Saturati
    GoogleSRE定义了四个需要监控的关键指标。延迟(Latency),流量(Traffic),错误(Errors)和饱和度(Saturation)。正如google sre 所讨论的,如果您只能衡量服务的四个指标,请关注这四个指标。 延迟Latency延迟是服务处理传入请求和发送响应所用时间的度量。测量服务延迟有助于及早发现服......
  • csredis操作redis
    c#使用csredis操作redis 现在流行的redis连接客户端有StackExchange.Redis和ServiceStack.Redis,为什么选择csredis而不是这两个?.net最有名望的ServiceStack.Redis早已沦为商业用途,在.NETCore中使用只能充值;后来居上的StackExchange.Redis虽然能用,但线上各种Timeou......
  • DecisionTreeClassifier&DecisionTreeClassRegression
    DecisionTreeClassifierfromsklearn.datasetsimportload_wine#红酒数据集fromsklearn.treeimportDecisionTreeClassifier,export_graphviz#决策树,画树fromsklearn.model_selectionimporttrain_test_split#数据集划分importgraphvizimportmatplotlib.pyplo......