首页 > 其他分享 >阿里云香港节点全面故障给我们的启示

阿里云香港节点全面故障给我们的启示

时间:2022-12-22 11:36:56浏览次数:38  
标签:很多 服务 备份 演练 故障 阿里 启示 节点

2022年12月18日上午,阿里云发布《阿里云香港可用区C某机房设备异常》公告。“阿里云监控发现香港地域某机房设备异常,影响香港地域可用区C的云服务器ECS、云数据库PolarDB等云产品使用,阿里云工程师已在紧急处理中。”

在这个寒冷的冬天,一个炸雷给业界惊起了一个大波浪。很多人不解的是说好的高可用呢。说好的N个9呢?SLA 就是个笑话,服务该挂不还是挂了。虽然经过十几个小时,阿里云香港节点服务恢复了,数据也恢复了,终于可以让各位老板松了口气,估计很多运维的小伙伴已经开始迁移服务或者开始做备份了。

但是并不是每个公司都这么幸运,不知道还有谁记得「前沿数控」这个公司,当初因为所有数据都在云硬盘上,结果因为云硬盘故障,导致公司的所有数据全部丢失,一夜回到解放前,也不知道官司现在结果如何了。

经过阿里云这次大故障,估计很多老板都会考虑可靠性的问题了,尤其是服务和数据的安全。再心大的老板估计也得让人做个服务和数据的冷备份,稍微懂点的得用混合云搞搞,估计再也没人嘲笑那些自建小容器云、自建机房的公司了。

公有云故障和公司内部服务处理方式区别很大

之前一个老板问我说公司内部要不要搞一个StatusPage?我说可以搞,但是优先级不高,等以后有精力有时间了可以搞。公司内部的很多服务会不会出问题,哪里出问题,怎么解,其实很多时候都是有固定答案的,你一回想就能知道哪里可能有问题。很多时候我们并不是缺少一个和用户沟通的渠道,而是我们故障预案都没有,也从来没有演练过。出故障是肯定的,只是不确定什么时候发生而已。先把重要的事,不做就得死的事做了、做好了再考虑其它的。

StatusPage,一句话描述就是:当你的在线业务宕机时,StatusPage 允许你和你的客户进行沟通,告知他们当前服务的状态和问题处理进展。业务正常服务状态下,客户也可以查看当前服务状态是否正常。同时,客户也可以查看这一业务所有历史上的问题发生和处理记录。

公司内部我们有很多的渠道与用户沟通。在公司内部,一般都有系统的用户群,当服务挂了,各种监控告警就会发出来,系统相关人都会注意到,第一时间在群内周知。这个和公有云的服务还是有很大不同的。

再好的预案没演练过也只是预案

就像平时,很多公司都会声称我们的系统有备份能还原。实际上很多时候也只是一个备份、还原「预案」。结果最后真的需要还原的时候发现,要么备份没成功,要么备份成功了但是数据陈旧,要么找到数据了但是无法还原。。。。总之结论就是没法还原。做这行久了,八卦也就有了,我身边血淋淋的案例太多了,此处我想 at 下我全大哥 :)

线上服务故障演练

我们真的需要对线上服务进行故障演练。针对各种故障场景下服务的容错能力、配置合理性、服务健壮性、监控告警实效性、定位与解决问题应急能力等进行演练。发现线上服务的薄弱环节,提升服务的容错性和可恢复性。

别有侥幸心理,踏实干事,一步一个脚印才能让掉坑里的次数少点。


相关阅读

中国云服务走向全球?先把 Status Page 搞定

我们可以信任阿里云的故障处理吗?


感谢点赞、转载

关注我,了解研发效能发展动向


阿里云香港节点全面故障给我们的启示_DevOps

标签:很多,服务,备份,演练,故障,阿里,启示,节点
From: https://blog.51cto.com/u_15848639/5962432

相关文章

  • KingbaseES V8R6数据库运维案例之---索引坏块故障处理
    案例说明:在执行表数据查询时,出现下图所示错误,索引故障导致表无法访问,后重建索引问题解决。本案例复现了此类故障解决过程。适用版本:KingbaseESV8R3/R6一、创建测试......
  • 阿里云香港节点全面故障给我们的启示
    2022年12月18日上午,阿里云发布《阿里云香港可用区C某机房设备异常》公告。“阿里云监控发现香港地域某机房设备异常,影响香港地域可用区C的云服务器ECS、云数据库PolarDB等......
  • 持续集成:通过Jenkins API创建项目和节点
    我在持续集成:JenkinsAPI使用方法详细介绍中介绍了jenkinsAPI的使用方法,比如使用API读取jenkins项目相关信息、触发构建等操作,除此之外,还可以直接使用API来创建项目、新建......
  • 使用Keepalived工具实现集群节点的高可用
    GreatSQL社区原创内容未经授权不得随意使用,转载请联系小编并注明来源。GreatSQL是MySQL的国产分支版本,使用上与MySQL一致。作者:蟹黄瓜子文章来源:社区投稿1.前言在集......
  • [js] 树结构查找节点,深度优先
    查找节点其实就是一个遍历的过程,遍历到满足条件的节点则返回,遍历完成未找到则返回null。类似数组的find方法,传入一个函数用于判断节点是否符合条件,代码如下:functiontreeFin......
  • #yyds干货盘点# LeetCode程序员面试金典:节点间通路
    题目:节点间通路。给定有向图,设计一个算法,找出两个节点之间是否存在一条路径。示例1:输入:n=3,graph=[[0,1],[0,2],[1,2],[1,2]],start=0,target=2输出:tr......
  • Resistance distance 图上2个节点的等效电阻求解算法
    目录​​如何计算正方体网络中(乃至更一般的图)2个节点间的等效电阻?公式的正确性很容易得到验证​​​如何计算Weightedmatrix的Resistancematrix我验证了特例,是对的,......
  • 故障分析 | MySQL : slave_compressed_protocol 导致 crash
    作者:胡呈清爱可生DBA团队成员,擅长故障分析、性能优化,个人博客:https://www.jianshu.com/u/a95ec11f67a8,欢迎讨论。现象MySQL版本:8.0.18create.sql:zabbix初始化脚本,包含建......
  • 故障分析 | MySQL 数据”丢失”事件之 binlog 解析应用一则
    作者:余振兴爱可生DBA团队成员,熟悉Oracle、MySQL、MongoDB、Redis,最近在盘TiDB,擅长架构设计、故障诊断、数据迁移、灾备构建等等。负责处理客户MySQL及我司自研DMP数......
  • 故障分析 | MySQL:唯一键约束失效
    作者:胡呈清爱可生DBA团队成员,擅长故障分析、性能优化,个人博客:https://www.jianshu.com/u/a95ec11f67a8,欢迎讨论。最近遇到一个故障:单主模式5节点MGR集群,在使用mysqlshe......