首页 > 其他分享 >我对线上质量监控大盘的思考

我对线上质量监控大盘的思考

时间:2023-12-22 15:44:07浏览次数:37  
标签:巡检 对线 场景 监控 保障 质量 思考 自动化 线上

前面几篇文章分享了生产环境质量保障面临的四大挑战,也聊了线上巡检的落地注意事项,线上巡检是生产环境质量保障的手段之一,其他手段还有配置变更验证、应急响应和质量度量评估。

质量是定性的概念,但评估质量到底如何一定是需要定量度量的,否则无法进行持续的改进优化。这篇文章,分享一些我对于线上质量监控大盘的思考。

 

下图是我结合自己的实践经验和学习所总结的一张质量监控大盘思维导图:

 

巡检类型

对线上的服务质量进行监控和度量,一般是通过巡检的方式开展。巡检主要分为如下四种类型:

容量巡检:简单理解即在线上通过性能测试的方式对整个系统的容量和稳定性开展验证;

防资损巡检:梳理可能存在的导致资损的场景,然后通过定时任务去进行检查,防患于未然;

核心业务巡检:可以理解为线上的主流程回归测试,但这里的回归测试需要自动执行,且每次执行的结果都需要有数据沉淀和分析;

风险场景巡检:针对线上曾经出现故障的场景、可能出现故障的场景,通过定时任务进行巡检;

关于容量保障、线上防资损、风险场景的线上自动化巡检,可参考前面的文章:

《构建高效的容量保障体系》

《通过线上巡检,保障生产环境质量》

《业务防资损,质量保障的第一要务》

《控制风险,是质量保障的核心工作》

巡检报告

巡检报告很好理解,既然是对线上的服务质量进行检查和度量,那每次巡检肯定要出具对应的巡检报告。巡检产生的数据需要进行沉淀,然后对于低于预期或者异常的数据进行风险评估,并结合故障案例进行分析复盘,制定对应的应对预案并更新线上的应急预案。

关于风险评估和线上复盘以及应急预案,可参考前面的文章:

《聊聊稳定性预案》

《线上问题如何复盘?》

《复盘归因,提高交付质量的秘诀》

《控制风险,是质量保障的核心工作》

巡检规则

线上的质量检查我个人建议都通过自动化的方式进行,自动化的好处很多,比如避免人为误操作,可以错峰执行。那如何理解巡检规则呢?简单来说,巡检规则就是自动化巡检任务的断言plus版本。比如:

容量巡检,我们需要制定容量的参考值和通过值,在巡检结束后进行对比,如果数据和基准值或者预期相差过大,则可以通过告警通知的方式提醒技术同学及时跟进排查。

业务巡检规则,以优惠券业务为例:要判断优惠券的核销,是否可以叠加使用以及大额优惠券刷单等场景。可能有同学存在疑问,这些规则完全可以在脚本中定义好,为什么要在质量大盘中单独配置呢?原因主要有这几点:

  • 降低自动化巡检任务脚本的维护成本;
  • 巡检规则统一配置和管理,降低规则变更带来的不可控风险;
  • 规则变更和校验在同一个模块进行处理,降低质量监控大盘的耦合性;

巡检对象

自动化巡检的具象化形式,是通过自动化脚本,以任务调度去执行。但抽象总结一下,巡检的对象主要有如下几类:

  • 业务应用:巡检的最小粒度是具体的某个场景,而大部分场景都是业务维度的场景;
  • 异常日志&监控告警:风险巡检和防资损巡检,主要的巡检对象就是日常日志以及监控告警信息;
  • 配置变更:线上大部分故障都是变更引起的,因此针对线上的任何配置变更,都要引起注视,最好是case by case的建立巡检任务进行检查,避免出现线上故障;

配置数据管理

由于线上巡检的风险较大,因此对于一些账号和数据配置,最好是统一进行管理,维护和变更走审批和评审。其中比较重要的配置数据有如下几种:

账号数据:为了避免造成数据污染,巡检的账号需要单独配置和管理;

环境数据:除了线上巡检,还可以结合测试环境的各种自动化测试任务,对不同环境开展测试工作;

权限数据:同样,为了避免造成数据污染,巡检的账号和其对应的巡检权限范围,也需要单独配置管理;

黑白名单:线上巡检任务大多由单独的服务负责,为了避免被线上风控拦截或者识别为某些高频访问IP而禁止访问,巡检的账号建议通过白名单配置的方式来维护;

 

关于线上环境的质量保障,本篇文章算是阶段性的收尾了。在前面的文章中,我介绍了生产环境质量保障面临的挑战,如何控制风险,如何防资损,如何应急响应以及复盘,做完这些工作,最终才会有质量大盘这个概念。

质量保障工作并不仅限于测试环境,质量保障也需要长期持续的投入和优化,才能很好的对服务稳定性和业务可用性提供支撑,保障业务目标更好的达成,最终体现自己的价值。

 

标签:巡检,对线,场景,监控,保障,质量,思考,自动化,线上
From: https://www.cnblogs.com/imyalost/p/17921735.html

相关文章

  • jmeter +prometheus+grafana做性能测试监控
    1,环境搭建--->mac系统打开终端terminal,复制并粘贴以下命令:/bin/bash-c"$(curl-fsSLhttps://raw.githubusercontent.com/Homebrew/install/master/install.sh)然后按回车brew-version查看版本 2,安装prometheus方法一:brewinstallprometheus 安装完毕后,通过pwd查看......
  • 农牧业远程运维联网监控预警系统解决方案
    当前,我国农牧业稳步发展,产业结构不断调整、优化,许多企业力图实现生产管理水平的标准化、数字化、信息化的转型升级。对正在转型升级的企业而言,不仅生产要变得高效,管理运营也要更加智慧。通过物联网、云计算、大数据、5G、人工智能等技术,着力在制造业数字化、生产运维数字化等方面,持......
  • MySQL监控
    #My日常监控及sys库的使用##一、统计信息(维度)1、统计执行次数最多的语句:SELECTDIGEST_TEXT,COUNT_STAR,FIRST_SEEN,LAST_SEENFROM`performance_schema`.events_statements_summary_by_digestORDERBYCOUNT_STARDESC;2、查看平均响应时间最多的语句:SELECTDIGEST_TEXT,AVG_T......
  • 内蒙古某市财政提升IT基础监控运维案例剖析
    随着信息化建设的不断推进,内蒙古某市财政局的网络及运维管理面临着越来越多的挑战。为了解决这些问题,该财政局引入了监控易管理平台7.0,从而提升了IT基础监控的运行效率。一、现状与挑战随着财政局信息化的不断推进,其网络及运维管理面临着诸多问题。首先,该财政局的网络架构复杂,设备......
  • Qt/C++视频监控Onvif工具/组播搜索/显示监控画面/图片参数调节/OSD管理/祖传原创
    一、前言能够写出简单易用而又不失功能强大的组件,一直是我的追求,简单主要体现在易用性,不能搞一些繁琐的流程和一些极难使用的API接口,或者一些看不懂的很难以理解的函数名称,一定是要越简单越好。功能强大主要体现在功能的完整性,常规的接口肯定是必备的,然后在默认值方面,尽量将值设......
  • MySQL运维14-管理及监控工具Mycat-web的安装配置
    一、Mycat-web介绍Mycat-web(现改名为Mycat-eye)是对Mycat-server提供监控服务,通过JDBC连接对Mycat,MySQL监控,监控远程服务器的cpu,内存,网络,磁盘等情况的使用。Mycat-web运行过程中需要依赖zookeeper,因此需要先安装zookeeper,下载地址如下:zookeeper:链接: https://pa......
  • 搭建springcloud注册中心eureka以及admin监控
    现在springcloud微服务是当下盛行的主流框架,我们可以通过eureka实现服务监控和预警。接下来是项目搭建的主要步骤一、搭建eureka-server注册中心注意点有三个,分别是1.pom导入依赖(下面是完整的pom文件):springboot、eureka-server、springcloud<?xmlversion="1.0"encoding="UTF-......
  • python钉钉机器人运维脚本监控实例
    面是关于“Python钉钉机器人运维脚本监控实例”的完整攻略:目录介绍使用步骤配置机器人运行脚本示例说明监控服务器CPU使用率监控服务器磁盘空间总结介绍钉钉机器人是钉钉提供的一种形式化的通信渠道,可以通过代码来调用钉钉机器人的API,实现以机器人的形式向钉钉群组......
  • 可视化云平台EasyCVR远程视频监控技术在冬季电力巡检工作中的应用
    随着冬季的到来,电力巡检工作变得越来越重要。在这个寒潮天气频发的季节里,电力设备容易受到冰雪、寒风等自然因素的影响,导致故障和安全隐患,影响正常供电。为了确保电力设备的正常运行,电力公司需要加强巡检工作,及时发现和解决问题。在这个背景下,视频监控技术在冬季电力巡检工作中发......
  • 羚通视频智能分析平台视频监控汇聚平台 安全帽反光衣佩戴识别检测
    羚通视频智能分析平台是一款基于人工智能技术的视频监控汇聚平台,旨在实现对各种场景下的视频监控数据进行实时分析和处理。其中,安全帽反光衣佩戴识别检测是该平台的一个重要功能,主要用于检测监控画面中人员是否佩戴了安全帽和反光衣,以确保工作场所的安全。该功能的实......