• 2024-03-23天天报警值班,老子不干了
    最近跟一个朋友(化名张三)吃饭,三哥最近想离职,来找我喝酒,说天天OnCall,出门都带着电脑,连续一年了,要崩溃了。我问:你们组就你一个人么?为啥就你自己OnCall?三哥一脸苦涩:我们组算上老板4个人,老板说另外俩人不靠谱,不让他俩OnCall,还给我画饼,说OnCall能提升我的技术,年底绩效普通,那俩哥
  • 2024-01-19像 Google SRE 一样 OnCall
    在GoogleSRE的著作《Google运维解密》(原作名:SiteReliabilityEngineering:HowGoogleRunsProductionSystems)中,GoogleSRE的关键成员们几乎不惜用了三个章节的篇幅描述了在Google他们是如何OnCall的。GoogleSRE实践中,有一个广为人知的理念:减少琐事,用软件工程的方
  • 2023-12-31像Google SRE一样OnCall【转载】
    在GoogleSRE的著作《Google运维解密》[1](原作名:SiteReliabilityEngineering:HowGoogleRunsProductionSystems)中,GoogleSRE的关键成员们几乎不惜用了三个章节的篇幅描述了在Google他们是如何OnCall的。GoogleSRE实践中,有一个广为人知的理念:减少琐事,用软件工程
  • 2023-12-29【年度盘点】监控告警复盘要点总结
    转载说明:如果您喜欢这篇文章并打算转载它,请私信作者取得授权。感谢您喜爱本文,请文明转载,谢谢。前言监控告警是业务稳定性建设非常重要的一环,告警项的配置、告警阈值的设置、告警信息的发送和响应,都影响着业务稳定性。随着系统版本迭代,监控告警工具的变更,人员的变动等诸多因素