分布式系统监控的四类黄金指标

时间：2022-12-02 20:23:08浏览次数：75

标签：四类流量指标耗时监控分布式系统异常

按照《SRE：Google运维解密》中描述的，分布式系统监控的四类黄金指标是：延迟（Latency）、流量（Traffic）、错误（Errors）、饱和度（Saturation）。

从下图可以看到，对每一个系统来说，监控指标覆盖了：输入、输出、和系统自身。

指标监控项

按照这个分类，在不同场景下，有不同的监控项：

监控关注点和策略

这些监控项都需要时序指标异常检测技术，除此之外，它们还有自己的特征：

1、流量类

流量类主要关注点在：

异常流量：突增或突降、同比环比不一致。
历史峰值，以及基于历史流量预测未来流量。

2、错误类

常态错误是不可取的，这部分要么应该归入某种业务状态，要么就要分析解决。

可归入业务状态的，需要看某种状态的走势，就回到流量类的异常走势分析了。
错误类的，要分析发生的原因，并看如何避免问题发生。

错误率突升或者成功率突降代表系统自身的处理逻辑可能存在问题，这类指标的异常检测利用了二项式分布，参看:《还记得概率课本中的二项分布吗？在我们的网络判障中发挥了大作用！》

3、延迟类

服务接口有超时等待、超时重试相关设置，这部分的时间是底线时间。
由于 吞吐量 = 流量 * 平均耗时 ,一旦耗时增大，服务的处理能力会下降，如果正好是高峰期，有扛不住的隐患。

基于上面两条认知，延迟类我们要看：

平均耗时。
基于业务特征，选择看 TP95，TP99，TP999 ... 耗时。

对于耗时大于一定阈值的，要做分析和解决，比如典型的数据库慢查询。

4、饱和度类

负荷程度如何？由最短板所决定。比如：在内存受限的系统中，即为内存；在I/O受限的系统中，即为I/O。
很多系统在达到100% 利用率之前性能会严重下降，所以合理的利用率目标也是很重要的。

标签：四类,流量,指标,耗时,监控,分布式系统,异常
From： https://www.cnblogs.com/ghj1976/p/fen-bu-shi-xi-tong-jian-kong-de-si-lei-huang-jin-z.html

一文读懂车载监控系统中的数据标注类型丨曼孚科技
近年来，车载视频监控的市场需求呈飞速上涨之势。随着人工智能技术不断融入社会，越来越多的行业进行了技术革新。车载监控作为监控视频行业的细分子行业，是视频监控在交通领域......
获取druid监控数据
要监控spring数据配置文件需要开启对应包扫描spring.datasource.druid.aop-patterns=org.jeecg.modules.monitor.service.*packageorg.jeecg.monitor.xxljob;i......
使用 Gitea + Renovate Bot 自动监控软件包依赖
相信本文的读者或多或少用过或听说过NPM、Maven、pip这类软件包管理工具。当你精心制作了一个网页、或写了一个小程序、或者使用Vue.js+Spring搭建了一套框架，来自n......
Zabbix与乐维监控对比分析（二）——Agent管理、自动发现、权限管理
上期我们详细介绍了Zabbix与乐维监控的架构与性能对比分析，透过架构与性能对比分析，用户可以对乐维监控之所以能成为”Zabbix企业版”有一个初步的认知。本篇是Zabbix对比乐......
Zabbix与乐维监控对比分析（二）——Agent管理、自动发现、权限管理
上期我们详细介绍了Zabbix与乐维监控的架构与性能对比分析，透过架构与性能对比分析，用户可以对乐维监控之所以能成为”Zabbix企业版”有一个初步的认知。本篇是Zabbix对比乐......
浅谈智慧校园能源监控的设计
罗轩志安科瑞电气股份有限公司上海嘉定 201801 摘要基于网络通讯技术，搭建校园能源实时在线监控平台。对南京技师学院重点耗能楼宇或设备的关键参数实施在线采集及分......
浅谈母线配电在数据中心的应用以及产品监控选型
罗轩志安科瑞电气股份有限公司上海嘉定201801 摘要：随着现代信息科技的发展，数据中心的机柜功率逐渐增加，而且现实环境对机房的调整和改造需求逐渐增多，传统的配电模式已无法......
云南德宏芒市机场电气火灾监控系统的设计及应用
安科瑞陈盼摘要：本文简述了电气火灾监控系统的组成原理，分析了电气火灾监控系统在应用中的设计依据和相关规范。最后通过安科瑞剩余电流式电气火灾监控系统在云南德宏芒市机场......
浅谈数据中心机房动环监控的设计
罗轩志安科瑞电气股份有限公司上海嘉定201801摘要：机房动力和环境监控系统是对分布的精密机房及通信局（站）内的电源、空调、油机、蓄电池、高低压配电等多种设备和环境的各......
浅谈消防设备电源监控在高层建筑中的应用
罗轩志安科瑞电气股份有限公司上海嘉定 201801摘要：火灾发生后，非消防电源被切断，火灾报警系统应立即接通消防电源，满足消防设施处于良好运行状态，对消防设备电源状态的监......

分布式系统监控的四类黄金指标

指标监控项

监控关注点和策略

1、流量类

2、错误类

3、延迟类

4、饱和度类

相关文章

赞助商

阅读排行

分布式系统监控的四类黄金指标

指标监控项

监控关注点和策略

1、 流量类

2、 错误类

3、 延迟类

4、 饱和度类

相关文章

赞助商

阅读排行

1、流量类

2、错误类

3、延迟类

4、饱和度类