首页 > 其他分享 >SRE:如何提高报警有效性?

SRE:如何提高报警有效性?

时间:2023-02-19 16:22:53浏览次数:29  
标签:SRE 漏报 报警 故障 监控 Time 有效性 Mean

为什么要提升<报警有效性>

过多的报警会让负责人麻木
过多的报警会增加短信和电话的成本
提升根因定位效率

如何定义<报警有效性>

不漏报
不误报
不重报
不延报

如何量化

MTTF (Mean Time To Failure,平均无故障时间):平均正常运行时间
MTTR (Mean Time To Repair,平均修复时间):故障发生到故障修复之间的平均值
MTBF (Mean Time Between Failure,平均失效间隔):两次故障之间的平均值
报警次数,有效报警量
漏报次数
重复报警数
故障感知时长
报警认领率

如何提升

服务提升:从源头解决问题,减少报警
阈值合理:故障、预警的阈值都要合理
故障自愈:可以有效降低短信和电话报警次数,减少人工故障处理成本。(但不能依赖)
排除抖动:最常用的方式是连续出现问题再报警
降低维护成本:如规范监控指标,使用统一sdk、脚本等

监控完善&自感知

  • 抓手-分级合理:对监控对象进行分级(如高优服务)、对报警进行分级(严重故障电话报警)。如永久排除非线上环境的机器。
  • 多维度监控完善:业务监控、服务监控、基础监控......
  • 借助程序:自动感知新的服务、新的接口、新的调用关系......(防止系统变更导致漏报)

减少重复报警

  • 报警收敛:如一个集群有多台机器出现问题,就需要收敛
  • 合理设置报警间隔
  • 报警接收人合理:可以设置值班制度+紧急上升
  • 落实责任制:如报警认领率、成本分摊

标签:SRE,漏报,报警,故障,监控,Time,有效性,Mean
From: https://www.cnblogs.com/NetRookieX/p/17134902.html

相关文章

  • 智慧水利雨量水位报警站
    智慧水利雨量水位报警站产品简介雨量水位报警站由水位探测器、雨量传感器、报警灯、扩音器、太阳能板和采集传输控制器组成。实时采集水位等级,三个水位探测器对应3个水位等......
  • 2023年使用centos发报警邮件配置
    环境:阿里云上ecs主机  centos7.6系统目的:监控nginx有访问异常ip,发送邮件通知安装软件:  yuminstall-ysendmailmailx  #mailx一般阿里云上都给安装了的......
  • optee km4.0 VTS: PerInstance/SigningOperationsTest.RsaGetKeyCharacteristicsRequi
    异常日志:#./VtsHalKeymasterV4_0TargetTest--gtest_filter=PerInstance/SigningOperationsTest.RsaGetKeyCharacteristicsRequiresCorrectAppIdAppData/0_defaultNote......
  • 大厂SRE管理者如何设计团队的DevOps自动化体系?
    自动化体系在一个技术团队中尤其重要,他代表着效率和未来。在运维团队,我认为SRE自动化的终极目标就是建立一套DevOps体系,能够把所有的运维场景承载下来并全部自动化,全链路的......
  • 自开发钉钉机器人消息推送报警数据
    一.电脑下载钉钉软件因为要添加钉钉机器人需要在电脑端软件去做安全设置,所以需要在电脑上下载钉钉,并添加机器人;下载地址:https://www.dingtalk.com/#/(1)点击网页右上角的......
  • 用css实现简易报警灯
    主题用css来实现一个简易的报警灯效果实现效果  实现思路 实现的核心是一个灯罩和一个灯芯。灯罩主要是使用了border-radius圆角边框,灯芯主要是radial-gradient径......
  • vue3 | isRef、unref、toRef、toRefs
    isRef检查某个值是否是ref。是返回true,否则返回false。constnum=ref(10);constnum1=20;constnum2=reactive({data:30});console.log(isRef(num));//tru......
  • unref、isref、toRef、toRefs
    unref()如果参数是一个ref则返回它的value,否则返回参数本身unref(val)相当于val=isRef(val)?val.value:valfunctioninitialCount(value:number|Ref<number>){......
  • 5.Prometheus设定报警规则
    1.主机及服务存活状态设置报警2.内存使用率设置报警3.cpu繁忙百分比设置报警4.cpuiowait报警5.disk使用率百分比报警6.网卡流量监控1.主机及服务存活状态设置报警......
  • 创建分区表在交换分区时报警ORA-14097的处理记录
    问题描述:创建分区表在交换分区时报警ORA-14097的处理记录.数据库:oracle11.2.0.41、问题重现HR@orcl150>createtablep_emp2(salnumber(7,2))3partitionbyran......