首页 > 其他分享 >P0级事故发生,留给运维的时间不多了?

P0级事故发生,留给运维的时间不多了?

时间:2023-11-01 14:38:44浏览次数:29  
标签:P0 运维 处理 系统 留给 故障 监控 告警

一、案例背景

打工人的焦虑,已经延伸到在线文档了。近日,语雀P0级故障想必大家都有所体会,宕机近8小时,笔记、离线同步完全不可用。作为用户尤其担心我的文档资料是否会因此消失。

P0级事故发生,留给运维的时间不多了?_运维

这泼天的8小时,放眼互联网界也是相当炸裂的。

从次日的故障处理通报可知,团队在收到运维监控系统报警后,定位故障根因来自于新的运维升级工具中的一个致命bug,该bug带来了一系列严重的影响。更深层次的问题在于高可用架构体系的设计、运维流程,以及项目规范的不完善。

教训是个体的,经验是共享的。语雀表示:作为一款千万级用户的在线文档,应该做到更完善的技术风险保障和高可用架构设计,尤其是面向技术变更操作的“可监控,可灰度,可回滚”的系统化建设和流程审计,从同 Region 多副本容灾升级为两地三中心的高可用能力,设计足够的数据和系统冗余实现快速恢复,并进行定期的容灾应急演练。

如何提升运维效率,保障系统的稳定运维,故障如何才能快速恢复,并从根本上避免此类故障再次出现才是运维的核心要义。

二、 不断完善监控系统

「无监控,不运维」,监控系统的地位不言而喻。监控什么,能发挥什么价值?我们从运维的日常开始分析。


1、实时采集监控数据

包括硬件、操作系统、中间件、应用程序等各个维度的数据。实时掌握瞬息万变的复杂的业务系统,对业务的健康稳定有着极其重要的价值。

2、实时反馈监控状态

通过对采集的数据进行多维度统计和可视化展示,能实时体现监控对象的状态是正常还是异常。

3、预知故障和告警

能够提前预知故障风险,并及时发出告警信息。

4、辅助定位故障

提供故障发生时的各项指标数据,辅助故障分析和定位。

5、辅助性能调优

为性能调优提供数据支持,比如慢SQL分析与优化,接口响应时间等。

6、辅助容量规划

为服务器、中间件以及应用集群的容量规划提供数据支撑。例如看似简单的空间增长问题,实际检查起来非常费时费力,很多用户会过滤掉,不愿为这种小事每天做例行检查。通过AI机器学习算法,进行趋势性监测分析,提前一周告知客户,做好空间规划与清理。

 三、更有效地使用监控系统

在故障复盘时,有没有做监控?监控是否及时?监控信息是否有助于快速定位问题?这三个问题一定会被追问。可见有监控系统还远远不够,如何用好才是关键。

统一部署,全链路监控

将分散监控实现集中统一的监控管理,建立统一的事件管理体系,对告警严重等级设定标准、规范事件处理流程,提高运维效率。通过可视化大屏,可全面直观地掌握业务系统及IT资源运行状态。

趋势预测,提前预知

清楚使用哪些指标来刻画监控对象的状态,比如对某个接口进行监控,可以采用请求量、耗时、超时量、异常量等指标来衡量。

机器学习算法通过数据分析趋势变化,对未来趋势进行预测,自动调整阈值,提前对故障进行响应,实现告警收敛、异常监测, 辅助运维人员聚焦关键故障信息,极大程度地提高运维效率。

设定合理的报警阈值和等级

达到什么阈值需要告警?对应的故障等级是多少?

传统运维依赖人工和静态规则,无法适应动态复杂变化的场景。LinkSLA智能运维可基于历史数据,利用智能算法深度学习,对未来时间段的数值精准预测,将预测值作为基线,更贴近用户使用场景。

告警分为5个等级,对应的处理方式也不同。MOC在线值守工程师根据告警等级,选择在线处理或沟通现场工程师进行处理,确保问题得到及时响应。

四、 完善的故障处理流程

快速恢复——应急预案很重要

应急方案很重要,故障处理第一原则是快速恢复。系统恢复运行足够快,就不会造成太大影响。一个合格的应急方案,要包含系统、服务、辅助工具等方面。如系统或上下游出现问题,知道如何配合上下游分析问题;服务上如日志、程序、配置文件在哪里,如何检查服务是否正常,如何重启服务,如何调整应用级参数等。知晓这个服务影响什么业务;辅助工具上如何使用自动化工具辅助分析并应急。这就要求运维人员熟悉系统逻辑,架构部署,应用作用,端口,服务等级的应急处理。

告警要及时、准确 

故障处理的时效性,关键在于是否及时发现故障,是否及时处理故障。这两点的前提还在于告警是否准确。如果运维监控平台产生大量的错误、重复、无效告警,则大大降低了运维的效率,浪费大量的精力和成本处理这些无效告警。

试用2个月的用户表示  “告警减少了65%,MTTR减少了30%”大大的节约了公司处理告警的时间成本和风险。

完善故障处理流程 

在日常的运维场景中,普遍存在2个问题。一是无法时刻关注系统的告警情况,其次是遇到告警问题不知该如何处理。MOC工程师7*24值守解决系统关注问题,固化ITIL流程,当系统出现故障报警后会对报警信息进行筛选,对于高危报警能第一时间通知客户,并提供技术支持。这一点大大降低用户的系统风险和人力成本的投入,解决告警处理问题。

在故障处理案例中,从问题的发现到解除,只用了15分钟。

标签:P0,运维,处理,系统,留给,故障,监控,告警
From: https://blog.51cto.com/u_15576159/8121950

相关文章

  • 运维保障:智慧城市建设中的IT基础资源监控
      随着数字技术的飞速发展和广泛应用,智慧城市建设已成为当今城市发展的重要趋势。数字政府一网统管作为智慧城市建设的核心组成部分,旨在通过数字化手段提升政府的治理能力和服务水平。在这个背景下,运维管理软件发挥着至关重要的作用,为智慧城市建设提供强大的支撑和保障。一、运......
  • 网工内推 | 运维工程师,熟悉主流云平台,六险一金,RHCE优先
    01中核核信招聘岗位:数据中心运维工程师职责描述:1、负责云平台及数据中心基础设施的日常运维工作,提前发现云平台稳定性问题,确保问题及时发现并处理,提升客户核心业务的稳定性;2、负责数据中心基础设施设备运行状态监控和定期巡查工作,对设备健康检查、优化调试,提出改进建议,能在日常......
  • 图扑 HT for Web 手机端运维管理系统
    随着信息技术的快速发展,网络技术的应用涉及到人们生活的方方面面。其中,手机运维管理系统可提供数字化、智能化的方式,帮助企业和组织管理监控企业的IT环境,提高运维效率、降低维护成本、增强安全性、提升服务质量,并支持企业实现数字化转型,满足客户需求和市场竞争力至关重要。本文......
  • 图扑 HT for Web 手机端运维管理系统
    随着信息技术的快速发展,网络技术的应用涉及到人们生活的方方面面。其中,手机运维管理系统可提供数字化、智能化的方式,帮助企业和组织管理监控企业的IT环境,提高运维效率、降低维护成本、增强安全性、提升服务质量,并支持企业实现数字化转型,满足客户需求和市场竞争力至关重要。本文将......
  • elasticsearch运维调优-集群和冷热集群
    集群:node1-node3专用主节点node3仅投票节点 启动服务:./bin/elasticsearch后台启动守护进程./bin/elasticsearch推荐方式./bin/elasticsearch-d-ppid关闭进程ps-ef|grepelastic杀进程kill-9'catpid'pkill-Fpid常见问题:本地无法访问:关闭防火墙,生产环境建......
  • Linux运维技能图谱
    前言该技能图谱依个人经验绘制,不适用于所有运维岗位。对于刚入行的从业者,也不需要按照图谱全学一遍,应该根据岗位工作内容来学习。有些技术我也不会,但作为一个选项我也写进去了,比如容器运行时有Docker、Podman等,但我其实只会Docker。运维这个岗位本身比较宽泛,也有很多的细分类,比......
  • 运维深入精确掌握一个大型业务系统
    要深入精确掌握一个大型业务系统的运维,需要采取更具体的方法和策略,确保系统的高可用性、性能和安全性。以下是一些关键步骤和建议:详细的系统分析:开始时,进行系统分析,包括硬件、软件、网络拓扑、数据流和依赖关系。了解系统的每个组件及其职责。性能优化:进行性能分析,识别潜......
  • 快速运维 - K8s
    更新日志:-2023.10.311055初始化HELMHelm是一个用于k8s的包管理器,使用helm之后就不需要了解k8s的yaml语法并编写应用部署文件,可以通过helm下载并在k8s上安装需要的应用。Helm还提供了k8s的软件部署,删除,升级,回滚应用的强大功能。列表列举安装的应用helmlist卸载卸......
  • 监控易101:全方位解读运维的核心功能与特性
      在数字化时代,企业IT环境的复杂性日益增加,给运维工作带来了前所未有的挑战。面对这一情况,监控易作为一款一体化运维监控管理平台,凭借其全面的监控覆盖、智能的告警机制、强大的数据分析工具以及灵活的扩展能力,赢得了众多企业的青睐。接下来,我们将深入探讨监控易的各大核心功能......
  • 监控易一体化运维:打造机房环境监控的卓越典范
      随着信息技术的飞速发展,机房作为企业数据和业务的中心,其运行状态和管理的重要性日益凸显。为确保机房的稳定性和可靠性,越来越多的企业选择使用一体化运维管理软件来进行实时监控。在这方面,监控易品牌提供了一款全面而高效的机房环境实时监控系统方案。一、机房环境实时监控的......