首页 > 其他分享 >【安全运维】监控告警要点总结

【安全运维】监控告警要点总结

时间:2024-12-23 11:30:37浏览次数:3  
标签:运维 是否 渠道 监控 要点 oncall 告警 复盘

前言

监控告警是业务稳定性建设非常重要的一环,告警项的配置、告警阈值的设置、告警信息的发送和响应,都影响着业务稳定性。
随着系统版本迭代,监控告警工具的变更,人员的变动等诸多因素的变化,我们需要定期对监控告警的方方面面做复盘,不断优化提升监控告警,以最大程度保障业务稳定。2024年眼看就接近尾声了,今年你的监控告警表现怎么样?你开始做年度复盘了吗?
本文对监控告警复盘要点做了一次梳理,可供参考。

1. 告警项的复盘

1.1 每一个告警等级都是合理的吗?是否存在等级过低/过高的告警项?

告警等级分类

紧急告警:需立刻做出响应,尽快解决的问题。

重要告警:在一定时间内做出响应,比如当天处理即可的告警。

一般告警:处理时效比非紧急告警更长的告警,比如本周或本月解决即可的告警。

1.2 每个告警项的告警阈值、频率是否依然合理?

1.3 是否存在可废弃的告警项?或可以创建哪些自动化的工具以便于彻底弃用某个告警项?

1.4 告警频率是否合理,是否需提升/降低告警频率?

1.5 告警文本是否准确,让oncall人员收到告警后立刻知道自己该做什么?

1.6 历次发生的故障是否准确发出和送达了相应的告警信息,告警是否存在误告/漏告?

1.7 近期是否存在业务系统重要重大变更,变更后是否存在关联告警项需要调整?

1.8 每个告警项是否能准确传达关键问题所在?

1.9 可否修改底层监控方案让告警更加精确?

2. 告警渠道的复盘

告警一般属于三种类型

  • 要求立即采取响应/行动:这类告警适用于发送到随身通信设备,如短信告警、电话告警;

  • 需要知晓,但不需要立即采取行动:这类告警可以发送到内部聊天工具上,以便于后期回顾。也可以选择发送到邮件告警,但是要注意邮件分类与通知处理,因为这类告警很容易被邮件淹没、忽视;

  • 记录下来用于问题回顾/诊断:这类信息可记录到日志日中,方便对它们进行分析、报告;

参考

标签:运维,是否,渠道,监控,要点,oncall,告警,复盘
From: https://www.cnblogs.com/o-O-oO/p/18623610

相关文章

  • 运维系列&前端系列:echarts超出容器宽度问题的解决办法
    echarts超出容器宽度问题的解决办法echarts超出容器宽度问题的解决办法问题:解决方法:echarts超出容器宽度问题的解决办法问题:在使用vue+iview+echarts时,出现了echarts图标刷新页面会超出容器宽度的问题,效果如下:DOM结构:JS代码:解决方法:在网上查找了很多方......
  • 【资料分享】常见运维监控软件资料汇总
    一、运维监控软件1、Nightingale:https://flashcat.cloud/product/nightingale/2、DeepFlow:https://www.deepflow.io/zh/3:SkyWalking:https://skywalking.apache.org/downloads/4:Zabbix:https://www.zabbix.com/download5、zbxtable:https://www.zbxtable.com/6、prometheus:http......
  • 消防通道堵塞占用识别告警摄像机
    消防通道堵塞是一种常见的安全隐患,一旦发生火灾或其他紧急情况,堵塞的消防通道将会对疏散和救援工作造成严重阻碍。为了及时发现和解决消防通道堵塞问题,人们研发了消防通道堵塞占用识别告警摄像机。这种摄像机利用先进的人工智能技术和图像识别算法,能够实时监测消防通道的情况,快速......
  • 运维工程师
    工作职责:1)负责监控主机的运行状态,主动及时处理项目运行中出现的故障,保障主机系统长期稳定运行;2)熟练使用云平台(Aoogle云、华为云、阿里云、Amazon)的网络架构、存储架构、监控架构及自定义方案实施;3)与业务保持紧密的合作,及时发现业务痛点或提升业务效率的机会点,并协......
  • python毕设基于架构的信息发布系统管理和运维的实现ahh5z程序+论文
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景随着信息技术的迅猛发展,信息传播已成为企业运营中不可或缺的一部分。无论是大型企业还是初创公司,都需要一个高效、稳定的信息发布系统来宣......
  • 基于Grafana自动化运维巡检API集成方案
    场景      某应用平台已经有Grafana面板,我们编写实现监控Grafana的API指标,实现自动化监控与巡检数据流图解决方案概述要实现通过SpringBoot程序与Grafana告警HTTPAPI进行交互,自动化运维告警,可以按照以下步骤进行:Grafana配置:配置Grafana的数据源(如Prometheus、InfluxDB......
  • 使用sqlmap进行联合查询注入要点
    sqlmap-u"http://192.168.1.117/sqli-labs/Less-1/?id=1"--technique=U--dbs-u<目标URL>:指定目标URL(包括注入点)。--technique=U:告诉sqlmap使用UNION注入技术(U代表UNION)。--dbs:列出所有数据库。执行后,sqlmap会尝试使用UNION注入获取数据库列表。如果成功,它将......
  • 运维常识
    以下是一些常见的运维常识:日志分析:快速定位应用崩溃原因生产场景:一个Web应用崩溃,重启后仍然无法恢复。通过查看日志文件,发现 OutOfMemoryError,并且日志中显示JVM堆内存不足。解决方案:使用 grep 过滤关键字:grep"OutOfMemoryError"/var/log/application.log确......
  • 【运维发布】蓝绿部署滚动更新金丝雀发布授权策略敏感数据保护内置监控功能外部监控工
    【运维发布】蓝绿部署滚动更新金丝雀发布前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站部署策略(续)蓝绿部署(Blue-GreenDeployment)蓝绿部署是一种零停机的发布策略,它通过维护两个完全相同的生产环境来实现。一个环境......
  • 2024年山东省17届网络建设与运维Linux部分
    目录1,系统安装(1)!(由于系统安装没有可演示性就此省略)(2)修改ip为10.6.20.100/24,SSH服务端口为2025(3)安装qemu-kvm、libvirt、virt-install、sshpass(重要)(4)虚拟机存储目录有默认目录改为/home/vmfs/(5)创建桥网卡名字为br0,root用户密码为Key-1122(6)创建快照(7)克隆虚拟机并......