高级研发工程师和架构师的区别不在于掌握了多少技术,而在于你所能驾驭系统的边界。这其实也反映了一个研发工程师的成长历程,起初独立负责一个功能,然后负责一个系统模块,再负责一个系统,最后负责多个系统或业务条线。
服务等级协议(Service-Level Agreement,SLA)
-
一般来讲,2 个 9 表示系统基本可用,年度不可用时间小于 88 小时。
-
3 个 9 是较高可用,年度不可用时间小于 9 个小时。
-
4 个 9 是具有自动恢复能力的高可用,年度不可用时间小于 53 分钟。
-
5 个 9 指极高的可用性,年度不可用时间小于 5 分钟。
在电商平台中(比如淘宝、京东、拼多多),系统可用性大多是 4 个 9
先摆明度量的两种方式,“N 个 9” 和 “影响请求量占比”,然后再结合实际业务场景表明第二种方式的科学性。
要有一个思路的闭环,“可评估”“可监控”“可保证”
-
如何评估系统高可用?
-
如何监控系统高可用?
-
如何保证系统高可用?
监控系统包括三个部分:基础设施监控报警、系统应用监控报警,以及存储服务监控报警。
监控报警指标分为两种类型。
-
系统要素指标:主要有 CPU、内存,和磁盘
-
网络要素指标:主要有带宽、网络 I/O、CDN、DNS、安全策略、和负载策略。
监控工具常用的有ZABBIX(Alexei Vladishev 开源的监控系统,覆盖市场最多的老牌监控系统,资料很多)、Open-Falcon(小米开源的监控系统,小米、滴滴、美团等公司内部都在用)、Prometheus(SoundCloud 开源监控系统,对 K8S 的监控支持更好)。这些工具基本都能监控所有系统的 CPU、内存、磁盘、网络带宽、网络 I/O 等基础关键指标,再结合一些运营商提供的监控平台,就可以覆盖整个基础设施监控。
-
系统应用监控
系统应用监控报警的核心监控指标主要有流量、耗时、错误、心跳、客户端数、连接数等 6 个核心指标,监控工具有 CAT、SkyWalking、Pinpoint、Zipkin 等。
-
存储服务监控
DB、ES、Redis、MQ
有一个全局的监控视角,比掌握很多监控指标更为重要
标签:可用,报警,系统,指标,开源,监控 From: https://www.cnblogs.com/jiaozg/p/17217630.html