系统稳定性
系统稳定性,包括:监控、 告警、性能优化、慢sql、耗时接口等。
系统的稳定性的治理,可以围绕这几方面展开。
监控
Prometheus 监控并收集数据。监控 qps, rt , cpu,gc次数。。
Grafana从数据源(如Prometheus ) 获取数据并做可视化。
告警
阿里云告警、webhook推送告警、接口错误率告警、接口超时告警、错误日志告警。
kafka消息队列
kafka消费延时告警。
对于要求低延时的业务,及时关注 kafka的消息堆积。
kafka做好消费者群组管理。
k8s( kubernetes )
k8s容器重启告警。k8s容器内存使用率告警。
磁盘容量管理
mysql磁盘、es磁盘、mongoDB 磁盘。
redis内存管理
redis内存管理。设置redis缓存时,尽量加上过期时间。如果存在大量的永久key,会占用过多的redis内存空间。
及时清理无用的 redis缓存。
慢sql
慢sql会长时间占用 数据库连接数,如果项目中有大量的慢sql,那么可用的数据库连接数就会变少,进而会影响业务。
耗时接口
系统在同一时间,能处理的请求数量是有限的,高耗时接口会长时间占用请求数量,影响系统可用性。
高峰期的前一段时间,可以提前做接口压测。
链路追踪
skywalking 。微服务,通过traceId 链路追踪,分析在各个服务的耗时。
标签:redis,系统,稳定性,接口,kafka,耗时,sql,告警,概览 From: https://www.cnblogs.com/expiator/p/18223382