首页 > 其他分享 >仅用2个月,告警减少65%,这家公司做对什么?

仅用2个月,告警减少65%,这家公司做对什么?

时间:2023-08-23 15:01:33浏览次数:36  
标签:65% 仅用 运维 工程师 LinkSLA 工单 告警 值守

一、用户故事


刘总是浙江某公司信息部门负责人,在多年前就已经上线国内某知名网管运维软件产品。“那是一个失败的项目,我们的运维工程师每天都要遭受告警风暴的折磨,重要的告警被海量、无效告警淹没,你要知道公司处理每个告警都要付出很高时间成本的,不处理又会产生很大的风险成本”。

刘总询问工程师,能否再找一个运维平台试试。但工程师告知他,其他产品也都差不多,要像银行、运营商那样做到及时处理所有告警,除了增加一线人员外好像没有其它好办法。后来刘总看到了LinkSLA的案例推送,使用他们的管家式运维服务,业务系统故障从每年20次直降到了零,抱着免费试试看的心态,他安排工程师尝试订阅两个月。

“为什么选择LinkSLA?因为SaaS订阅制模式,如果达不到预期,我就不再续费,花钱也很少,对我没多大损失”,刘总有点儿得意,“但是使用效果却出乎意外的好,可以明确告诉你们,现在我们的无效告警减少了65%,MTTR减少了30%”。

在运维工作中,告警管理是很重要的一步,不仅可以大大提高运维工作效率,还能帮助企业形成最佳事件管理流程,让业务系统运行更加健康稳定;为了提高告警准确性,LinkSLA在告警规则方面做非常多的工作,例如,AI规则,告警聚合函数、多条件组合告警、告警依赖、基于规则的屏蔽,基于时间周期的规则屏蔽,基于子对象的屏蔽,当然要有重要一点是,moc工程师会进行告警的复核,去伪存真,调整规则,通知用户的肯定是真实有效的告警。

二、LinkSLA服务方案



一、AI机器学习,打造最强告警系统

随着企业业务系统越上越多,监控对象,指标更是海量增长。如按照传统的方法配置静态阈值,不仅耗用巨大的人力,而且容易造成告警信息不准确。机器学习把运维从繁琐的事件中解放出来,应用在异常告警、告警收敛、故障分析、趋势预测方面,更体现效率。但一个真正可以在海量实际场景中都做到很高准确率的AI算法可并不容易。LinkSLA是南京大学人工智能学院的孵化企业,早在4年前就和南京大学的专业团队合作,做出了一套具备实战价值的AI大模型,且创新性的采用了“大模型、小学件”的模式确保这套算法在各种各样的用户实际落地场景中具备很高的准确率。

1、 建立自适应异常检测

具有周期性、趋势性、季节性的指标,机器学习可建立自适应异常检测。例如,白天的CPU基线和晚上不同,1月份和6月份不同;除了单指标的异常监测,还可进行多维数据分析,例如某个业务系统响应时间超过正常范围,则会监测业务组成对象的关键指标,如CPU使用率、内存使用率、磁盘和网络IO、JVM使用率等等基于决策树分析模型,自动确认影响权重,进行多维数据分析。

2、 容量趋势预测

对用户资产的容量指标进行趋势预测,例如文件系统空间、数据库表空间等等,根据增长趋势提前预警,让用户有足够时间进行数据清理、扩容或迁移等等。

3、提供可视化统一界面

为运维人员提供可视化的统一界面,异常告警智能化,基于动态阈值的报警确认,对海量的时序指标进行异常检测,帮助运维人员迅速识别、预测可能出现的问题。基于AI机器学习算法,对问题根因进行分析,大大提高告警的准确性,提高运维效率。


二、平台+服务,有值守的运维平台

在技术上的创新极大的消除了误报,LinkSLA交付给最终客户的不仅仅是一套运维软件平台,而是以平台+工单告警值守服务的模式提供给客户一种“管家式”的运维监控服务。后台的7*24小时的值守工程师会主动帮助用户接收工单、协调处理工单,全程跟踪和督促,形成线上线下的闭环服务。

案例分享

节假日期间,值守工程师凌晨经常收到某客户的核心文件系统空间爆满的工单,根据SLA约定,要到早上上班时间才通知客户处理,但是9点工单检测发现问题已经被解决,工单就自动关闭了,一连几天皆是如此。

细心的MOC值守工程师调看历史数据,发现一个规律:每天凌晨1T的空间会被全部占满,到9点左右,又会释放400G的空间。MOC值守工程师查看了相关的磁盘容量、磁盘IO、应用进程等数据,分析出是用户在这个时间段进行了备份。联系客户得到确认后,进一步分析备份日志,发现由于空间不足经常导致备份失败,而客户以为最核心的业务系统数据已经有了备份保障。MOC工程师立刻沟通客户调整了备份方案,问题得到彻底解决。

运维三要素是“人员、工具、流程”,大部分客户往往只配备现场驻点或者响应人员,对于负责首先处理告警、工单的一线值班工程师,除了大银行、运营商等这种超大客户外,其他客户并未配置。这种状况导致的后果往往是“被动”“救火”式的处理,业务系统、数据、网络安全等发生灾难前的预警、隐患无法及时发现并消除。LinkSLA的这种“平台+值守服务”的模式可以真正地成为用户的“运维管家”,为用户实现“提前消除隐患”、“及时处理隐患或故障”的主动式服务。


三、解除误报,降低运维成本

在运维实践中,运维监控服务需要简单、高效、准确地告诉运维人员,哪里有隐患或故障需要去处理。LinkSLA智能运维管家从用户需求出发,首先利用经过实战检验的AI等技术创新做到了消除绝大部分“误报”的能力,再结合“告警及工单值守服务”为用户解决运维过程中最繁琐、最不好安排人力投入的困难,将运维转变为“主动”“流程清晰”的一种工作。

另外,值守服务并不仅仅只提供一线的告警和工单值班,还可以提供二线工程师及最资深的行业专家的线上支持,可以大幅度提升、加速用户分析问题、解决问题的能力。

仅用2个月,告警减少65%,这家公司做对什么?_运维


仅用2个月,告警减少65%,这家公司做对什么?_数据_02

免费试用     


标签:65%,仅用,运维,工程师,LinkSLA,工单,告警,值守
From: https://blog.51cto.com/u_15576159/7203120

相关文章

  • TiDB 多集群告警监控-中章-融合多集群 Grafana
    作者:longzhuquan背景随着公司XC改造步伐的前进,越来越多的业务选择TiDB,由于各个业务之间需要物理隔离,避免不了的TiDB集群数量越来越多。虽然每套TiDB集群均有两个详细的监控Dashboard、Grafana,但对于运维来说几十套集群的监控、告警、巡检均需消耗巨大的精力。上篇介绍了......
  • 在集成H.265视频流媒体播放器EasyPlayer.js时遇到"SourceBuffer"报错,应该如何解决?
    EasyPlayer,是由TSINGSEE青犀视频推出的一款功能强大且开放性很高的H.265视频流媒体播放器。它支持H.264和H.265视频格式的播放,并具有稳定性强、流畅播放等特点。此外,EasyPlayer还有多个版本可供选择,例如EasyPlayer-RTSP、EasyPlayer-Pro、EasyPlayer.js等。有用户反馈,在使用播放器......
  • Python基础入门学习笔记 065 GUI的终极选择:Tkinter2
    实例1:Label组件显示文字与gif图片1#导入tkinter模块的所有内容2fromtkinterimport*34#创建主窗口5root=Tk()6#创建一个文本Label对象,文字为左对齐,离左边边框距离为107textLabel=Label(root,8text="您下载的影片含有未成年人......
  • WebRTC 支持H265探索之路
    截至目前为止,参考了大量的文献和博客,都通过datachannel进行码流的传输,然后在浏览器端重新实现解码和渲染,因此意味着WebRTC不再具有任何的研究价值,还不如自身实现通过websocket对码流的传输,相比WebRTC庞大的体量,暂时不会做任何的调整。相信在专利面前,Google不会做任何的改善,还有UDP......
  • 使用EasyPlayer.js,通过设置解码器参数实现H.265音频解码
    EasyPlayer是一款稳定且流畅的流媒体播放器,它能够支持H.264和H.265视频播放。该播放器能够处理各种视频流格式,包括RTSP、RTMP、HLS、FLV和WebRTC等。EasyPlayer具备多个版本,例如EasyPlayer-RTSP、EasyPlayer.js和EasyPlayerPro,以满足不同用户在不同场景下的需求。此外,EasyPlayer还......
  • 国标GB28181视频平台EasyGBS国标平台添加针对H.265视频流的告警信息的具体操作流程
    EasyGBS国标视频云服务支持设备/平台通过国标GB28181协议注册接入,可实现视频的实时监控直播、录像、检索与回看、语音对讲、云存储、告警、平台级联等功能。平台支持将接入的视频流进行全终端、全平台分发,分发的视频流包括RTSP、RTMP、FLV、HLS、WebRTC等格式。在EasyGBS平台中接入......
  • EasyCVR视频融合平台Linux环境下CGO调用C接口推流异常,H.265转H.264失败的原因是?
    EasyCVR视频融合云平台采用云边端一体化架构,可以将分散在仓储各处的前端监控设备(如IPC、NVR等)集中接入,并提供实时视频监控、视频录像、云存储、录像检索与回放、智能告警、云台控制、平台级联、服务器集群等视频能力服务。通过实时高清视频监控,仓储管理人员可以高效地监管人员和货......
  • 采用增强型 HotRod™封装 LMQ66420MC3RXBRQ1、LMR36503MSC5RPERQ1 汽车类降压转换器
    一、LMQ66420MC3RXBRQ1器件介绍:LMQ66420-Q1是具有集成旁路和自举电容器的业界超小型36V、2A同步直流/直流降压转换器,采用增强型HotRod™QFN封装。该易于使用的转换器支持1V(3.3V)至36V的宽输入电压范围(启动后或运行后),并支持高达42V的瞬态电压。该器件专为满足常开型汽车应......
  • 记:Elasticsearch 的 告警机制 和 jvm 内存分配
    Elasticsearch的告警机制导致的更新失败问题总结:由于测试环境资源占用比例过高导致elasticsearch触发保护机制,导致的更新失败的问题Es告警日志:查看服务器资源使用情况:此时Es所在的挂载磁盘已经占用了95%,Es默认的保护机制:属性名属性值(可配置为固定值)含义保......
  • 代码随想录算法训练营第二十天| 654.最大二叉树 617.合并二叉树 700.二叉搜索树
      654.最大二叉树    卡哥建议:又是构造二叉树,昨天大家刚刚做完 中序后序确定二叉树,今天做这个 应该会容易一些, 先看视频,好好体会一下 为什么构造二叉树都是 前序遍历    题目链接/文章讲解:https://programmercarl.com/0654.%E6%9C%80%E5%A4%A7%E4%BA%8C%E5......