首页 > 其他分享 >【年度盘点】监控告警复盘要点总结

【年度盘点】监控告警复盘要点总结

时间:2023-12-29 12:37:14浏览次数:46  
标签:是否 渠道 盘点 监控 oncall 告警 复盘

湖蓝几何球体LinkedIn Banner.png

转载说明:如果您喜欢这篇文章并打算转载它,请私信作者取得授权。感谢您喜爱本文,请文明转载,谢谢。


前言

监控告警是业务稳定性建设非常重要的一环,告警项的配置、告警阈值的设置、告警信息的发送和响应,都影响着业务稳定性。

随着系统版本迭代,监控告警工具的变更,人员的变动等诸多因素的变化,我们需要定期对监控告警的方方面面做复盘,不断优化提升监控告警,以最大程度保障业务稳定。2023年眼看就接近尾声了,今年你的监控告警表现怎么样?你开始做年度复盘了吗?

本文对监控告警复盘要点做了一次梳理,可供参考。

1. 告警项的复盘

  • 每一个告警等级都是合理的吗?是否存在等级过低/过高的告警项?
  • 每个告警项的告警阈值、频率是否依然合理?
  • 是否存在可废弃的告警项?或可以创建哪些自动化的工具以便于彻底弃用某个告警项?
  • 告警频率是否合理,是否需提升/降低告警频率?
  • 告警文本是否准确,让oncall人员收到告警后立刻知道自己该做什么?
  • 历次发生的故障是否准确发出和送达了相应的告警信息,告警是否存在误告/漏告?
  • 近期是否存在业务系统重要重大变更,变更后是否存在关联告警项需要调整?
  • 每个告警项是否能准确传达关键问题所在?
  • 可否修改底层监控方案让告警更加精确?

2. 告警渠道的复盘

告警一般属于三种类型:

要求立即采取响应/行动:这类告警适用于发送到随身通信设备,如短信告警、电话告警; 需要知晓,但不需要立即采取行动:这类告警可以发送到内部聊天工具上,以便于后期回顾。也可以选择发送到邮件告警,但是要注意邮件分类与通知处理,因为这类告警很容易被邮件淹没、忽视; 记录下来用于问题回顾/诊断:这类信息可记录到日志日中,方便对它们进行分析、报告; 做好监控告警的关键技巧

对告警渠道的复盘:

  • 是否存在需调整告警渠道的告警项(如告警等级上升或下降,导致需要修改告警渠道)?
  • 每个告警渠道是否依旧畅通无阻?
  • 每个告警渠道的使用率是否发生变化,导致需调整告警渠道的(如邮件告警是否长期被忽略或下班时间实发及时知晓和查看有告警邮件,于是改向发送微信告警)?
  • 是否存在更有效的告警渠道可投入使用的?或无效告警渠道可删除的?

3. 告警接收人的复盘

告警接收人的注意事项:

  • 慎重选择告警接收人,发送给主要相关人员;
  • 做好各相关部门的值班排班表,明确每天各相关团队的oncall人员;
  • 为oncall准备B岗,以备不时之需;
  • 在公司内部有一个统一、清晰、明确的故障升级上报机制;
  • 对oncall机制要妥善安排,处于oncall状态,不仅精神会比较紧张,而且还会打断日常工作,不建议同一位同事长时间处于oncall状态。

对告警接收人的复盘:

  • 告警接收人员是否需要变动(如是否存在人员增减、部门/工作变动等导致的变动)?
  • 当前oncall排班是否依旧合理?是否需做出调整?
  • 告警上报和backup机制,是否需要调整?
  • 每次告警,oncall人员都做出了正确的反应吗?是否存在发送了告警而无人响应的情况?

::: hljs-right

(全文完)

:::

标签:是否,渠道,盘点,监控,oncall,告警,复盘
From: https://blog.51cto.com/u_10950710/9025324

相关文章

  • 2024值得尝试的50个AI应用【年末盘点】
    2023年的最后一个工作日,不管你是仍然忙碌在岗位上,还是错峰出发在回家跨年的路途中,即将迈入的2024年,一个全新的开始——这个AI无处不在的年代,无论你是打工人、创业者还是学生,总有一款AI工具能为你的工作学习和生活带来前所未有的变化:设计师使用AI工具自动生成创意草图,节省了大量绘图......
  • # yyds干货盘点 # 盘点一个Python自动化办公实战案例(四)
    大家好,我是皮皮。一、前言前几天在Python最强王者交流群【钟爱一生】问了一个Python自动化办公的问题,一起来看看吧。【温馨提示】遇到表达不清的,能稍微描述下,想要达成的结果吗?在excel上,或者画图也行。最好是把你想要的结果展示在excel中,另外,你展示的这个表格最好做个小的demo发上来......
  • 盘点一个Python自动化办公实战案例(四)
    大家好,我是皮皮。一、前言前几天在Python最强王者交流群【钟爱一生】问了一个Python自动化办公的问题,一起来看看吧。【温馨提示】遇到表达不清的,能稍微描述下,想要达成的结果吗?在excel上,或者画图也行。最好是把你想要的结果展示在excel中,另外,你展示的这个表格最好做个小的demo......
  • 【Kafka-Eagle】EFAK告警配置与实践
    Kafka-Eagle是一个开源的Kafka集群监控与告警系统,可以帮助用户实现对Kafka集群的实时监控、性能指标收集以及异常告警等功能。下面是关于Kafka-Eagle的告警配置和实践的一般步骤:安装和配置Kafka-Eagle:下载最新版本的Kafka-Eagle安装包,并解压到一个合适的目录中。进入Kafka-Eagle的......
  • AtCoder Beginner Contest 复盘合集
    AtCoderBeginnerContest复盘合集修改链接2023.12.6ABC312VP(OI赛制)这次的ABC相对比较难:红橙黄黄蓝绿绿,Ex(蓝)AlinkB稍微麻烦一点。linkC很水,直接Sort一遍即可。linkD稍微思考,可以得出一个DP,准确来说不太像DPlink【警钟长鸣】我非常的弱智,\(n<=3000\)赛时写......
  • # yyds干货盘点 # 盘点一个基金数据的Python网络爬虫案例
    大家好,我是皮皮。一、前言前几天在Python最强王者交流群【哎呦喂 是豆子~】问了一个Python网络爬虫问题,一起来看看吧。问题描述:大佬们这个13位数字怎么构造呀 找不到规律 试了在第一页的url基础上加数字也是不行1、网站链接:http://quote.eastmoney.com/center/gridlist.html......
  • # yyds干货盘点 # 盘点一个Python自动化办公实战案例(三)
    大家好,我是皮皮。一、前言前几天在Python最强王者交流群【钟爱一生】问了一个Python自动化办公的问题,一起来看看吧。【温馨提示】遇到表达不清的,能稍微描述下,想要达成的结果吗?在excel上,或者画图也行。最好是把你想要的结果展示在excel中,另外,你展示的这个表格最好做个小的demo发上来......
  • 盘点一个Python自动化办公实战案例(三)
    大家好,我是皮皮。一、前言前几天在Python最强王者交流群【钟爱一生】问了一个Python自动化办公的问题,一起来看看吧。【温馨提示】遇到表达不清的,能稍微描述下,想要达成的结果吗?在excel上,或者画图也行。最好是把你想要的结果展示在excel中,另外,你展示的这个表格最好做个小的demo......
  • 4、zabbix 调用API 发送邮件,告警周报统计
    #coding=utf-8importrequests,json,codecs,datetime,time,pandasfromemailimportencodersfromemail.headerimportHeaderfromemail.mime.textimportMIMETextfromemail.utilsimportparseaddrfromsmtplibimportSMTPimportsmtplibApiUrl='http://......
  • 安防LiteCVR监控视频云平台支持按时间查询告警列表消息
    随着人们对安全监控的需求不断提高,传统的监控设备已经无法满足人们的需求。因此,高清监控设备的出现成为了行业发展的必然趋势。高清监控设备不仅可以提供更清晰的画面,还可以提供更准确的监控信息。这也使得高清监控设备在安防监控领域的应用越来越广泛。LiteCVR视频平台基于云......