- 2024-08-28关于告警,要想做好,从这些方面着手
各类监控系统都会产生告警事件,于是,就产生了FlashDuty、PagerDuty、Opsgenie这类产品,做告警事件的收敛降噪、排班认领升级等。如果你想增强自己公司的告警事件处理能力,参考(chaoxi)这些产品的功能就可以了
- 2024-03-23天天报警值班,老子不干了
最近跟一个朋友(化名张三)吃饭,三哥最近想离职,来找我喝酒,说天天OnCall,出门都带着电脑,连续一年了,要崩溃了。我问:你们组就你一个人么?为啥就你自己OnCall?三哥一脸苦涩:我们组算上老板4个人,老板说另外俩人不靠谱,不让他俩OnCall,还给我画饼,说OnCall能提升我的技术,年底绩效普通,那俩哥
- 2024-01-19像 Google SRE 一样 OnCall
在GoogleSRE的著作《Google运维解密》(原作名:SiteReliabilityEngineering:HowGoogleRunsProductionSystems)中,GoogleSRE的关键成员们几乎不惜用了三个章节的篇幅描述了在Google他们是如何OnCall的。GoogleSRE实践中,有一个广为人知的理念:减少琐事,用软件工程的方
- 2023-12-31像Google SRE一样OnCall【转载】
在GoogleSRE的著作《Google运维解密》[1](原作名:SiteReliabilityEngineering:HowGoogleRunsProductionSystems)中,GoogleSRE的关键成员们几乎不惜用了三个章节的篇幅描述了在Google他们是如何OnCall的。GoogleSRE实践中,有一个广为人知的理念:减少琐事,用软件工程
- 2023-12-29【年度盘点】监控告警复盘要点总结
转载说明:如果您喜欢这篇文章并打算转载它,请私信作者取得授权。感谢您喜爱本文,请文明转载,谢谢。前言监控告警是业务稳定性建设非常重要的一环,告警项的配置、告警阈值的设置、告警信息的发送和响应,都影响着业务稳定性。随着系统版本迭代,监控告警工具的变更,人员的变动等诸多因素