通过对线上故障的复盘总结,我们发现由变更导致的故障占绝大多数,因此有必要进行线上变更管控,以下是一些基本思路:
1、变更是否符合规范
- 是否有对应需求,还有随意或主观变更?
- 变更是否有对应审批?(原则上所有线上变更都需要审批:不管是研发代码变更、应用配置变更还是平台运营操作等等),审批人是谁?是否评估过变更影响面?
2、是否经过测试验证
- 是否有对应测试用例
- 是否有对应测试结果或测试报告
3、线上变更是否满足三板斧规则
- 可灰度:机器灰度、流量灰度、业务灰度等
- 可观察:各种监控、应用关键日志
- 可应急:如回滚、限流、降级、扩容、重启、主备切换等等