SRE方法论之监控设计

时间：2023-11-17 16:22:41浏览次数：36

标签：方法论服务请求 SRE 系统监控告警应该

监控的4个黄金指标

《SRE：Google运维解密》中提出，监控系统的四个黄金指标是：延迟（Latency）、流量（Traffic）、错误（Errors）、饱和度（Saturation。

延迟：服务处理某个请求所需要的时间。在微服务中通常提倡快速失败，服务不要憋着，这些延迟请求要尽快反馈给开发人员分析，这些缓慢的错误会消耗系统性能，所以需要对这些错误延迟进行长期跟踪处理。
流量：当前系统的数据流入流出的数据统计，用来衡量服务的承载能力，不同系统的流量有不同的含义，比如对web服务来说，流量指每秒的 HTTP 请求数。
错误：当前系统发生错误请求的数量，一般单纯看数量不太直观，经常会对错误进行计算处理，换算成错误率。
饱和度：饱和度用来衡量当前服务的承载能力，一般是使用率和空闲率。如果系统主要受内存影响，那就主要关注系统的内存状态，如果系统主要受限与磁盘I/O，那就主要观测磁盘I/O的状态。因为通常情况下，当这些资源达到饱和后，服务的性能会明显下降。同时还可以利用饱和度对系统做出预测，比如，当前内存使用率已经达到 80% ，很快就要满了，这时就可以发出告警及时处理。

监控指标设计原则

长尾问题

假设一个web服务的http请求平均耗时为100ms,单看这个数据觉得服务性能没问题，但可能有1%的请求耗时超过5s,而这1%的请求就有可能引发用户投诉或其它风险。由于是计算的平均值而容易被忽略，最好的方法是将请求延迟分段统计。

采用合适的精度

监控数据的高频率收集、存储、分析成本很高，要根据监控对象以及监控目标合理设置监控周期、监控频率等。

减少告警误报

现在很多公司抱着“宁可错杀一万，也不能放走一个”的原则制定监控标准，这样做的后果就是运维人员疲于奔命，时间一长就会造成"狼来了"的后果。增加新的监控规则时，可以遵循以下原则：

收到紧急告警时，应该立即需要进行某种操作。每天只能进入紧急状态几次，太多就会导致“狼来了”效应。
紧急告警都应该是可以具体操作的。
紧急告警的回复都应该需要某种智力分析过程。如果某个紧急告警只是需要一个固定的机械动作，那么它就不应该成为紧急告警。
紧急告警都应该是关于某个新问题的，不应该彼此重叠。

监控系统建设原则

以上关于监控指标的讨论累加起来就会形成一个复杂的监控系统。

监控系统尽量简化

复杂是没有止境的，过于复杂的监控系统维护起来麻烦，而且经常出问题。

那些最能反映真实故障的规则应该越简单越好。
那些不常用的数据收集、汇总，以及告警配置应该定时删除。
收集到的信息，但是没有暴露给任何监控台，或者被任何告警规则使用的应该定时删除。

监控系统应作为一个独立的系统运行

保持监控系统相对独立、清晰简单。和其他系统保持松耦合，可以采用API来收集性能数据。

监控系统需要长期维护

监控系统需要跟随不断演变的软件一起变化，软件经常重构，负载特性和性能目标也经常变化。现在的某个不常见的、自动化比较困难的告警可能很快就会变成一个经常触发、需要一个临时的脚本来应对的问题。这时，应该去寻找和消除背后的根源问题：如果这种解决办法不可行，那么这条告警的应对就必须要完全自动化。

本文由mdnice多平台发布

标签：方法论,服务,请求,SRE,系统,监控,告警,应该
From： https://www.cnblogs.com/busijo/p/17839040.html

BMS系统如何实现远程监控与高效运维
BMS系统（电池管理系统）是用来智能化管理各个电池单元，监控电池的状态的系统，通过对电压、电流、温度等参数采集、计算，进而控制电池的充放电过程，能够实现对电池的保护、提升电池的综合性能。为实现BMS系统的安全稳定工作，就需要加强BMS系统的远程监控运维能力。对此数之能提供高效实用......
服务器实时监控部署
3个组件：node_export、prometheus、grafana 第一步：部署到所需监控的服务器上（node_export需要部署到每个服务器，剩余两个只需部署一个服务器即可）第二步：解压所部署的.tar.gz包：tar-zxvf压缩包名路径第三步：进入解压后的node_export目录下，执行： nohup./node_export......
Prometheus监控服务器状态及预警
1.背景项目上线后，需要对服务器及进程进行持续监控及预警。2.方案使用Prometheus收集监控指标，使用Node_exporter收集服务器状态，使用Grafana进行可视化展示及发送预警。2.1Node_exporter安装及使用nohup./node_exporter--web.listen-address0.0.0.0:8071&2.2Prometheu......
如何利用自动发现将现网的进程纳入到监控系统中？
进程监控是一项关键任务，旨在监测系统中运行的进程的性能和状态。通过有效的进程监控，可以实时了解进程的运行情况，及时发现问题并采取措施，确保系统的稳定性和性能。本期EasyOps产品使用最佳实践，我们将为您揭晓：1.如何利用自动发现将现网的进程纳入到监控系统中？2.如何对进程配置基本......
双十一快递业务量暴增，快递驿站视频智能监控方案保障快递业务顺利开展
一、背景分析虽然刚刚过去的双十一电商购物狂潮结束，但是快递业务量仍处在高峰期。据数据统计，今年全国邮政快递企业在11月11日当天共揽收快递包裹6.39亿件，是平日业务量的1.87倍，同比增长15.76%。随着电商购物节的不断增多，快递行业的业务量也逐渐上涨，为保障快递配送业务的正常进行、让......
双十一快递业务量暴增，快递驿站视频智能监控方案保障快递业务顺利开展
一、背景分析虽然刚刚过去的双十一电商购物狂潮结束，但是快递业务量仍处在高峰期。据数据统计，今年全国邮政快递企业在11月11日当天共揽收快递包裹6.39亿件，是平日业务量的1.87倍，同比增长15.76%。随着电商购物节的不断增多，快递行业的业务量也逐渐上涨，为保障快递配送业务的正常进行、......
EasyCVR视频监控+AI智能分析网关如何助力木材厂安全生产？
旭帆科技有很多工厂的视频监管方案，小编也经常分享出来供大家参考。近期，又有伙伴后台私信我们想要关于木材厂的方案。针对木材厂的生产过程与特性以及安全风险等，我们来分享一下相关的监管方案：1）温湿度监测：在木材存储区域和加工设备周围布置温湿度传感器。这些传感器可以监测木材......
智慧驿站：快递驿站/网点LiteCVR平台远程视频监控方案
一、背景需求视频监控在快递行业的应用已较为普遍。通过基于高清视频联网应用的业务管理可视化，可帮助提升快递行业服务规范性，降低企业不必要的经营成本，这已然成为视频监控在快递行业应用的趋势。除了起到安全防范的作用外，还能对快递业务过程进行事后录像回放与查证，业务管理可视化......
prometheus + node-exporter + Grafana 监控Linux资源情况
背景1.Oracle集群需要监控2.下载2.1node_exporter-1.6.1.linux-amd64.tar.gz2.2 prometheus-2.46.0.linux-amd64.tar.gz 3.采集数据下载监控Linux的exporter（注意选择自己的操作系统，我的操作系统是Linuxcentos7.9)，下载链接：https://github.com/prometheus/node_exporte......
安防监控LiteCVR平台视频画面六分屏的开发步骤（附代码）
视频监控分屏画面技术是一种用于同时显示多个监控摄像头画面的技术。全屏显示时，单一摄像头占据整个屏幕，提供对单个区域的详细监控。多画面分屏则支持将多个摄像头的画面以网格形式分割在同一屏幕上，便于同时监控多个区域。视频监控联网LiteCVR视频集中存储平台不仅支持1、4、9、1......