保证高可用的方法
1. 日志
2. 链路追踪
3. 监控
1. 业务监控(领导层)
OPS/DAU/访问状态 http code/业务接口(登陆注册聊天上传留言搜索)
2. system monitoring
(运维)
operating system: cpu/memory/disk usage/disk space/TCP(上w的连接),流量
组件:mysql,redis,kafka
3. logging monitoring
(运维)
3.1 业务日志(大数据日志,普通日志)
3.2 系统日志(操作系统日志,mysql日志,kafka)
日志管理系统,ELK日志系统,loki
4. 网络监控
5. 程序监控
开发提供监控接口
比如监控一天产生500 ErrUserNotFound的错误有多少
Prometheus: monitoring and alerting toolkit
promQL:
XXX{标签查询}[时间区间查询]
prometheus_http_request_total{code:"302"}[5h] // 过去5h内查询code为302的total
prometheus_http_request_total{code:"302"}[5h] offset 1h // 5h之前的1h
sum(prometheus_http_request_total{}) // sum of total
标签:code,Monitoring,5h,监控,go,http,日志,total From: https://www.cnblogs.com/sabertobih/p/18262808