前言
监控告警是业务稳定性建设非常重要的一环,告警项的配置、告警阈值的设置、告警信息的发送和响应,都影响着业务稳定性。
随着系统版本迭代,监控告警工具的变更,人员的变动等诸多因素的变化,我们需要定期对监控告警的方方面面做复盘,不断优化提升监控告警,以最大程度保障业务稳定。2024年眼看就接近尾声了,今年你的监控告警表现怎么样?你开始做年度复盘了吗?
本文对监控告警复盘要点做了一次梳理,可供参考。
1. 告警项的复盘
1.1 每一个告警等级都是合理的吗?是否存在等级过低/过高的告警项?
告警等级分类:
紧急告警:需立刻做出响应,尽快解决的问题。
重要告警:在一定时间内做出响应,比如当天处理即可的告警。
一般告警:处理时效比非紧急告警更长的告警,比如本周或本月解决即可的告警。
1.2 每个告警项的告警阈值、频率是否依然合理?
1.3 是否存在可废弃的告警项?或可以创建哪些自动化的工具以便于彻底弃用某个告警项?
1.4 告警频率是否合理,是否需提升/降低告警频率?
1.5 告警文本是否准确,让oncall人员收到告警后立刻知道自己该做什么?
1.6 历次发生的故障是否准确发出和送达了相应的告警信息,告警是否存在误告/漏告?
1.7 近期是否存在业务系统重要重大变更,变更后是否存在关联告警项需要调整?
1.8 每个告警项是否能准确传达关键问题所在?
1.9 可否修改底层监控方案让告警更加精确?
2. 告警渠道的复盘
告警一般属于三种类型:
-
要求立即采取响应/行动:这类告警适用于发送到随身通信设备,如短信告警、电话告警;
-
需要知晓,但不需要立即采取行动:这类告警可以发送到内部聊天工具上,以便于后期回顾。也可以选择发送到邮件告警,但是要注意邮件分类与通知处理,因为这类告警很容易被邮件淹没、忽视;
-
记录下来用于问题回顾/诊断:这类信息可记录到日志日中,方便对它们进行分析、报告;
参考
标签:运维,是否,渠道,监控,要点,oncall,告警,复盘 From: https://www.cnblogs.com/o-O-oO/p/18623610