首页 > 其他分享 >做好监控告警的关键技巧

做好监控告警的关键技巧

时间:2023-03-02 13:04:35浏览次数:40  
标签:技巧 阈值 系统 手册 call 监控 磁盘 告警

《线上监控怎么做?》一文中我们探讨了做好监控的一些技巧和陷阱,本文则主要探讨做好告警的一些重要技巧。

image.png

1. 根据告警类型慎重选择告警渠道

发送告警尽量不要用邮件告警,要根据告警类型慎重选择告警渠道。 告警一般属于三种类型: 1)要求立即采取响应/行动:这类告警适用于发送到随身通信设备,如短信告警、电话告警; 2)需要知晓,但不需要立即采取行动:这类告警可以发送到内部聊天工具上,以便于后期回顾。也可以选择发送到邮件告警,但是要注意邮件分类与通知处理,因为这类告警很容易被邮件淹没、忽视; 3)记录下来用于问题回顾/诊断:这类信息可记录到日志日中,方便对它们进行分析、报告;

2. 撰写系统运行手册

在一套复杂的环境中,并非团队中的所有人都了解每套系统,一份优秀的运行手册是为一个特定的服务而撰写的。运行手册有助于快速定位告警发生的位置,它回答了下列的问题:

  • 这是什么服务,这个服务做什么的?
  • 谁负责这个服务?
  • 这个服务有什么依赖关系?
  • 它的基础设施什么样?
  • 它会产生什么样的指标以及日志,这些指标和日志的含义是什么?
  • 应该为它设置哪些告警,为什么要设置这些告警?

当有人响应告警时,翻开运行手册就会了解发生了什么、告警的含义以及恢复告警的方向。 但不是每一条告警都需要运行手册,复杂重要的、需要人来诊断和修复的问题才需要用到运行手册。

3. 经常重新评估告警,持续优化

告警要适度,过少的告警,会容易让人产生懈怠心理,忽略系统的一些重要问题;过多的告警,会容易让人产生告警疲劳。 我们可以从以下几方面着手时常回顾、分析、优化自己的告警:

1)是不是所有的告警都需要有人响应? 2)回顾过去一个月或一个季度的告警历史,看看它们是什么告警?响应是什么?每个告警的影响是什么?有没有可以直接删除的告警?可否修改阈值?可否修改底层监控方案让告警更加精确? 3)可以创建哪些自动化的工具以便于彻底弃用某个告警?

4. 发送告警前先尝试自我恢复

有一些告警不一定需要人为干预,可以自我恢复。例如在检测到监控指标达到某个值时,就触发执行对应的脚本处理。 举个简单的例子:磁盘使用达到85%,就调用磁盘清理脚本清理磁盘。

5. 调整告警,提升on-call体验

你在on-call时,是否有过这样的经历:

1)在on-call期间收到很多告警信息,你以为系统出现故障了,但一经与告警对应的系统业务负责人核实,对方告诉你这是他设置的常规告警,只要指标超过这个值就会发送告警,不用管它。这样的告警,真的会让人很厌恶。 2)每次on-call,都会遇到系统出现故障,on-call=应急。

以上两种,都不是正常的,需要调整优化:

1)修正假报警。常规的、偶然出现又不影响系统运行的告警,是否可以考虑设置告警抖动,减少告警次数,降低真正告警被淹没的风险。 2)推动系统稳定性和弹性建设。提升系统的代码质量和业务稳定性,建立系统紧急收缩与弹性,非常有助于降低“救火”频率,大大提升on-call体验。 3)制定更好的on-call排班计划。on-call排班应注意劳逸结合,避免长时间处于on-call状态。

同时,一个系统的on-call值班,不仅应包含SRE,还应包含研发工程师与测试工程师一起轮值on-call。因为只有研发、测试、运维三个岗位都参与on-call值班,才能在某些情况下产生“共鸣”。 只有当研发自己意识到了on-call值班带来的烦恼,才会激励他们提升自己的代码质量,研发出更好的软件; 只有测试工程师参与了on-call值班救火,才能激励他们在系统上线之前做好充分的测试工作; SRE被on-call救火所累,才会更加坚守版本上线的风险把控,做好系统冗余与容量控制等系统稳定性工作。 一个系统的稳定性,需要每一个岗位的同事一起参与、努力。

6. 改进告警阈值

很多的告警阈值是静态阈值,如这样一条告警:“磁盘使用率超过了90%”。给出的信息就是磁盘使用率达到90%了,但是体现不出来是否存在哪个时间段磁盘使用出现了暴涨的情况。

使用一些动态的告警阈值,如百分比变化,可以提示我们类似“一夜之间磁盘使用率增长了50%”这种清理,这样可以更加方便快速找到磁盘使用率告警的原因,是正常的使用量达到了阈值,还是出现了异常情况。

7. 系统维护期告警

在对系统进行变更维护操作时,所涉及到的监控肯定会触发告警,如果团队中的人不清楚情况,他们肯定会怀疑系统出现了问题。 因此在系统变更维护时,尽量停掉相关的告警,因为这时候的告警其实没有意义。如不方便停掉告警,也请将系统维护告警的信息知会到团队中相关的同事,以免引起不必要的误会。

标签:技巧,阈值,系统,手册,call,监控,磁盘,告警
From: https://blog.51cto.com/u_10950710/6095979

相关文章

  • 技术分享| 如何使用Prometheus实现系统监控报警邮件通知
    上一篇关于Prometheus的文章中说到了Prometheus是如何实现进程监控。在实际的线上环境中,当系统进程出现异常后需要实时通知到值班运维人员,去检查系统是否还正常运转。下面......
  • Prometheus+Grafana可视化监控服务器
    目录一、介绍二、安装Prometheus三、安装Grafana四、PronetheusGrafana相关联五、监控服务器状态一、介绍Prometheus是一个开源的系统监控和报警系统,现在已经加入到CNCF......
  • 安防视频监控系统前端摄像机——DSP与SOC摄像机
       一、DSP摄像机  DSP(DigitalSignalProcessing)即数字信号处理,它是利用数字计算机或专用数字信号处理设备,以数值计算的方法对信号进行采集、变换、综合......
  • Android病毒分析基础(二)—ChatGPT提问技巧
    今天我们来用最近比较火的“ChatGPT”学习一下Android病毒分析基础,看看和我们之前学的有什么不同,又能学习到什么新的东西,同时了解一下“ChatGPT”提问的一些精髓。和我们......
  • 英语四级阅读技巧
    ###英语四级阅读技巧###   一.选词填空(5min)1.首先分析所给选项单词的词性并标注上它的词性。2min2.分析每一个空所需的词性,结合词义对号入座。 3min 二.......
  • WGCLOUD的基础使用 - 邮件告警设置说明
    WGCLOUD的邮件告警配置比较简单,不过还是写一下,因为有时候一些细节容易被忽略本文以qq邮箱发送为例说明,邮件告警配置成功后,所有告警通知都会自动发送邮件,如果不想接收邮件了,......
  • “一网统管”视频智能分析融合平台EasyCVR告警预案优化
    EasyCVR平台可在复杂的网络环境中,将分散的各类视频资源进行统一汇聚、整合、集中管理,实现视频资源的鉴权管理、按需调阅、全网分发、智能分析等。平台可支持多协议、多类型......
  • LiveNVR Onvif/RTSP流媒体软件接入监控摄像头后如何获取直播流地址进行大屏展示、播放
    1、LiveNVR介绍LiveNVR的安防监控的视频直播,可以按标准的Onvif/RTSP协议接入监控设备,也可以通过海康、大华、天地伟业等厂家私有SDK接入监控,实现web页面的播放和录像回放......
  • 4K HDMI输出固定广角拍监控摄摄像机法庭应用
    派尼珂Pnioke4K超高清专业摄像机NK-UHD300C采用1/1.8SONYCMOS专业4K图像传感器,890万像素,视频输出接口支持HDMI和USB输出,HDMI原始无压缩输出4K@30Fps视频,19201080,3840216......
  • zabbix自定义监控项
    zabbix通过snmp自定义监控项链接问题解决:1.提示“NoSuchInstancecurrentlyexistsatthisOID”**办法:**还有一个需要注意的点就是,我们添加了单个指标的监控......