当我们设计复杂系统时,生产环境系统的可观察性是必须的,期望通过观察告诉我们什么时候,哪里出现了问题。
- 平时了解服务运行状况。
- 异常时,可发现服务故障,并定位故障原因。
- 事后,对异常点做分析,看是否在高峰期发生,或者持续更久,是否会出事故,如何解决。
运维黄金指标
观察那些指标,按照《SRE:Google运维解密》中描述的, 监控的四个黄金指标如后: 延迟、流量、错误、饱和度。
四类运维监控指标的监控项
这四类监控指标,在具体的业务和基础设施、中间件场景,要监控的项各有不同:
基础设施 | 业务监控 | |
错误类 |
|
|
延迟类 |
|
|
流量类 |
|
|
饱和度类 |
|
|
参看: 京东 运维监控的终极秘籍,盘它!
这些项的周同比、日环比、突增、历史峰值等都需要关注。在百度做AIOPS时,还有些相关算法经验。
- 流量类:流入系统的请求数量(百度是如何做智能流量异常检测)、泊松分布。
- 错误类: 还记得概率课本中的二项分布吗?在我们的网络判障中发挥了大作用!、二项分布 。
- 延迟类: 高斯核密度估计
- 饱和度 : Beta分布核密度
参看 百度的经验 3分钟了解黄金指标异常检测, PPT 百度智能异常检测实践 王博、 演讲:百度 AIOps 黄金指标异常检测技术实践
MECE
MECE是 Mutually Exclusive Collectively Exhaustive 的首字母简写。
四类黄金指标是否MECE?
这四类指标是否宏观的就完全穷尽了呢?
我们看下面的思维导图: