在组织结构:团队成员40人左右,业务特点:有大量老服务、流量波动大(峰值集中在中午和傍晚)、流量不可预测。
背景:以业务发展为主,对稳定性关注较少,各项目使用的规范和工具不一致,两年台出了几次事故,开始重视稳定性建设,成立稳定性保障小组,推动稳定性工作。
稳定性小组的组成:
img
稳定性保障小组:各团队抽调人力成立的一个虚拟小组,负责团队内部的任务推动
QA:负责上线前各流程的规范及检查,负责流水线建设、事故定责
SRE:负责线上问题的跟进
Leader:本部门内的稳定性工作负责人
安全生产委员会:负责事业部内安全生产相关规范、配合公司级事项推动、协调外部资源
职责:
稳定性保障小组这个名称其实不是特别准确,后续又承接了很多其他的横向推动的任务,主要包括三大块:
稳定性保证:分为上线前保障和线上保障
研发效能:规范制定、流水线建设、环境建设等
降本增效:提升资源利用率
时间分配:
组长:50%左右
稳定性保障小组成员:10%左右
2、交付流程稳定性保障
整体流程图:
image-20240115173845914
(1)方案设计规范