首页 > 其他分享 >分布式系统运维四个黄金指标是否MECE?

分布式系统运维四个黄金指标是否MECE?

时间:2023-06-21 21:07:31浏览次数:36  
标签:运维 流量 指标 MECE 监控 分布式系统 饱和度 百度

当我们设计复杂系统时,生产环境系统的可观察性是必须的,期望通过观察告诉我们什么时候,哪里出现了问题。

  • 平时了解服务运行状况。
  • 异常时,可发现服务故障,并定位故障原因。
  • 事后,对异常点做分析,看是否在高峰期发生,或者持续更久,是否会出事故,如何解决。

运维黄金指标

观察那些指标,按照《SRE:Google运维解密》中描述的, 监控的四个黄金指标如后: 延迟、流量、错误、饱和度。

分布式系统运维四个黄金指标是否MECE?_百度

四类运维监控指标的监控项

这四类监控指标,在具体的业务和基础设施、中间件场景,要监控的项各有不同:

基础设施

业务监控

错误类

  • 宕机;
  • 磁盘(坏盘或文件系统错误);
  • 进程或端口挂掉;
  • 网络丢包;
  • 错误日志;
  • 业务状态码、错误码走势;

延迟类

  • IO等待;
  • 网络延迟;
  • 接口、服务的平均耗时、TP90、TP99、TP999等;
  • DB、缓存的慢查询;

流量类

  • 网络和磁盘IO;
  • 服务层面的QPS、PV和UV;
  • 各状态业务订单TPM;
  • 针对音频流媒体系统来说,这个指标可能是网络I/O速率,或者并发会话数量;
  • 针对键值对存储系统来说,指标可能是每秒交易数量,或每秒的读取操作数量;

饱和度类

  • 系统资源利用率:CPU、内存、磁盘、网络等;
  • 饱和度:等待线程数,队列积压长度;
  • 该服务是否可以正常处理两倍的流量,是否可以应对10%的额外流量,或者甚至应对当前更少的流量?
  • 预测:看起来数据库会在4个小时内填满硬盘;

参看: 京东 运维监控的终极秘籍,盘它!

这些项的周同比、日环比、突增、历史峰值等都需要关注。在百度做AIOPS时,还有些相关算法经验。

参看 百度的经验 3分钟了解黄金指标异常检测PPT 百度智能异常检测实践 王博、 演讲:百度 AIOps 黄金指标异常检测技术实践

MECE

MECE是 Mutually Exclusive Collectively Exhaustive 的首字母简写。

分布式系统运维四个黄金指标是否MECE?_cnblogs_02

四类黄金指标是否MECE?

这四类指标是否宏观的就完全穷尽了呢?
我们看下面的思维导图:

分布式系统运维四个黄金指标是否MECE?_异常检测_03

标签:运维,流量,指标,MECE,监控,分布式系统,饱和度,百度
From: https://blog.51cto.com/u_15588078/6531359

相关文章

  • MECE分析法
     概述MECE分析法,是麦肯锡的第一个女咨询顾问BarbaraMinto在金字塔原理中提出的一个很重要的原则。MECE分析法,全称MutuallyExclusiveCollectivelyExhaustive,中文意思是“相互独立,完全穷尽”。“相互独立”我们的原则是把问题放在同一维度上并能有效区分、不重叠,“完全穷尽”......
  • 基于Node.js的分布式应用程序架构设计与最佳实践:实现高效、可扩展的分布式系统
    目录基于Node.js的分布式应用程序架构设计与最佳实践:实现高效、可扩展的分布式系统随着互联网的普及和发展,分布式系统已经成为现代应用程序中不可或缺的一部分。而Node.js作为当前最流行的JavaScript框架之一,其在分布式系统中的使用和优化也越来越广泛。在本文中,我们将介绍基......
  • logstash1 - kafka - logstash2 - elasticsearch - kibana - 运维神器
    0.拓扑图官网: http://kafka.apache.org/documentation.html#introductionkafka原理 https://www.jianshu.com/p/e64d57d467ec?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation1.logstash的配置[root@VM_0_4_centosconfig]#ca......
  • kingbase-运维管理
    1、会话管理查看当前连接会话信息selectdatname,pid,usename,client_addr,backend_start,state,queryfromsys_stat_activity;中止会话,并断开和服务端的连接selectsys_terminate_backend(42953);取消会话执行的SQL语句selectsys_cancel_backend(43134);......
  • 曾经运维生涯中的几个“最”
    建荣写过一篇《维护之夜,说点故事和经验》,讲了一些维护工作中碰到的事情,虽然我的本职工作不是DBA,但是已经从事了十多年的应用运维工作,应用同样需要各种维护,包括上线投产、应急处置、迁移、演练等,只是维护的对象不仅仅是数据库,而是应用为核心展开的,在这个过程中,碰到了很多让我印象深......
  • Python自动化运维
    2-27在命令行窗口中启动的Python解释器中实现在Python自带的IDLE中实现print("Helloworld")编码规范每个import语句只导入一个模块,尽量避免一次导入多个模块不要在行尾添加分号“:”,也不要用分号将两条命令放在同一行建议每行不超过80个字符使用必要的空行可以增加代码的可读性运算......
  • 运维命令
    1、查看服务器正在运行的服务systemctllist-units--type=service--state=running2、查看服务器配置的开机自启服务systemctllist-unit-files--type=service--state=enabled......
  • 数据库运维实操优质文章分享(含Oracle、MySQL等) | 2023年5月刊
    本文为大家整理了墨天轮数据社区2023年5月发布的优质技术文章,主题涵盖Oracle、MySQL、PostgreSQL等数据库的安装配置、故障处理、性能优化等日常实践操作,以及常用脚本、注意事项等总结记录,分享给大家:Oracle优质技术文章概念梳理&安装配置Oracle的rwp之旅Oracle之HashJoinOr......
  • 分布式系统中的参数传播
    并行执行或者分布式执行一条SQL,这条SQL会被拆成多个子计划(Segment/DFO),这些子计划会被陆续调度到多个节点上执行。每个子计划都会做一些共同的事情:用相同的日志级别打印日志基于开关决定是否做performancelog读取session参数等等。所以,在设计一个分布式系统时,一定要设计好......
  • django 实现linux运维管理平台
    概述使用django实现一个linux运维管理平台,可以实现注册登录,机器管理,服务器批量操作,服务器性能监控。详细一、准备工作1、需要准备什么环境我是在自己的云服务上编写和运行的,centos7.2的环境,python是系统自带的python2.7.5,django安装的1.8.5版本的。数据库使用的mysql......