首页 > 其他分享 >阿里云严重故障,钉钉、淘宝、闲鱼、阿里云盘都崩了,阿里系史诗级故障!!

阿里云严重故障,钉钉、淘宝、闲鱼、阿里云盘都崩了,阿里系史诗级故障!!

时间:2023-11-13 10:55:36浏览次数:28  
标签:服务 闲鱼 备份 故障 阿里 镜像 服务器

大家好,我是栈长。

昨天 17 点多,栈长兴致来了,忙里偷闲正在看了一把 LOL S13 淘汰赛,没想到比赛还没看完朋友圈就已经炸锅了:

朋友圈有人开玩笑说,阿里 35 岁的人是不是都被优化了?还是双 11 后都松懈了?这大周末的还让加班?让不让人省心点。。

这我看完也有点懵 B ,大家还记得上次的语雀重大故障吧,弄了近 8 小时才完全恢复,这刚过去 10 来天,又来?这不是像阿里这样的大厂该有的作为啊!!

这次影响的还不只是语雀,阿里系大部分产品都受到影响,包括:淘宝、阿里云、钉钉、语雀、闲鱼、阿里云盘……

好家伙,一堆产品都上了微博热搜,热度甚至盖过了 S13 半决赛。。

说到 LOL,这比赛都打的啥啊,太无语了,我上我也行,就这状态,看得太失望了。

其他影响倒还好,阿里云众多产品都受到了故障影响。。。

LOL 都看完了还没有完全恢复,直到晚上 21:11 分所有云产品才基本恢复正常:

阿里云确认故障原因与某个底层服务组件有关,这么大个故障,居然都没做好各种测试?我也是大写的服!这次故障后,这位运维同学、总监的年终奖怕是没有了。

阿里云服务状态查询网站:

https://status.aliyun.com

栈长写文时,阿里云服务显示已恢复正常:

说到云服务器,为了提升企业开发和运营效率,不少公司都会选择云服务器,相信这次事件会给不少使用云服务器的人敲响警钟。

我个人也用云服务器,包括小程序:Java面试库博客网站、各种课程的后台系统等,都会用到云服务器,期间也出现过服务中断的情况,也有惨痛的、折腾死我的情况,所以,为了用户体验,我做任何操作都十分谨慎。。

为了服务稳定性,我总结了以下几个要点:

1、数据备份

不要相信任何平台,数据不在你手里,就不是你的,可能随时找不回,所以,如果要使用云产品,养成定时备份数据的习惯是非常重要的。

数据备份可以是这样:

  • 使用高可用的云产品;
  • 定期对系统盘备份镜像;
  • 做任何敏感运维操作都提前对系统备份镜像;
  • 每天对数据盘进行快照;
  • 手动备份重要数据到其他安全的地方;
  • ……

2、多云策略

不要全部依赖单一云服务提供商,一个平台出现故障,即使是高可用也是无解。可以考虑分布式部署,比如将一部分服务放在阿里云,另一部分放在腾讯云或其他云,这样不至于阿里云故障导致所有服务不可用。

其他云产品也是如此,鸡蛋不要放在一个篮子里。

3、镜像环境 + 灰度发布

可以做一个镜像环境,和线上环境一模一样,系统上线时先在镜像环境上线,如测试没事再在线上环境进行灰度发布,这也不至于影响所有用户吧?

4、应急预案

不管怎么样,处理紧急意外情况的预案还要是有的,提前制定好详细的应急预案,包括数据备份、紧急切换到备用系统等,做好全方位的监控,确保在系统服务中断时,业务能迅速恢复,从而不影响到业务。

所以,要做好应急预案,随时可以回滚,能迅速恢复服务,这是非常重要的,长时间折腾故障分析故障原因对真的不可取,这对企业和用户来说都是灾难。


说说感受:

阿里这个重大故障,就这事确实挺夸张的,我个人也挺想不通,阿里是国内的龙头 IT 大厂,这么大个企业,这么多产品受到这么长时间的故障影响,还一而再再而三的出现重大事故,真的会让不少人失去信心。

云服务器还受这么长时间影响,更不应该啊,想想全中国有多少企业和开发者都在用,任何一个小故障可能都会导致大量企业业务中断,造成重大损失,甚至使公司倒闭。

大家还记得,之前有一家以数据为生存的公司因为云服务器故障导致数据全部丢失的事件吧,数据全丢了,结果公司也倒闭了,所以,记住,鸡蛋不要放在一个篮子里,记得定期对数据进行备份。

上次语雀重大故障,大家都领到了 6 个月的会员补偿,这次截止栈长写文时,我并没有在看到有类似的补偿。当然,补偿不是目的,只能安抚人心,我们希望云产商做好服务稳定是首要的,不要让大家对云服务器提心吊胆。

最后,鸡蛋不要放在同一个篮子里!!!

近期热文推荐:

1.1,000+ 道 Java面试题及答案整理(2022最新版)

2.劲爆!Java 协程要来了。。。

3.Spring Boot 2.x 教程,太全了!

4.别再写满屏的爆爆爆炸类了,试试装饰器模式,这才是优雅的方式!!

5.《Java开发手册(嵩山版)》最新发布,速速下载!

觉得不错,别忘了随手点赞+转发哦!

标签:服务,闲鱼,备份,故障,阿里,镜像,服务器
From: https://www.cnblogs.com/javastack/p/17828673.html

相关文章

  • 语雀故障与反思,顺便再领半年会员!
    23日语雀的故障相信大部分人都已经知道了,官方发布的公告是这样的:10月23日语雀出现重大服务故障,且持续7个多小时才完全恢复,给用户使用造成极大不便,对此我们深感抱歉。经过复盘,我们在这里向大家进一步说明故障原因、修复过程和改进措施。故障原因及处理过程:10月23日下午,服务......
  • 【故障公告】阿里云OSS故障造成图片无法上传
    今天17:44~19:00期间,我们使用的阿里云对象存储OSS出现突发故障,造成图片无法上传,由此给您麻烦麻烦,请您谅解。故障期间对应的错误日志:TheOSSAccessKeyIdyouprovideddoesnotexistinourrecords.正当我们准备将图片上传切换到腾讯云COS时,19:00左右阿里云OSS......
  • 接口开放太麻烦?试试阿里云API网关吧
    前言我在多方合作时,系统间的交互是怎么做的?这篇文章中写过一些多方合作时接口的调用规则和例子,然而,接口开放所涉及的安全、权限、监控、流量控制等问题,可不是简简单单就可以解决的,这一般需要专业的开放平台来支撑。但为了开放几个接口就要做一个开放平台,实在是不合算。为此阿里云为......
  • 双非18线小城市二本,成功上岸阿里P7(Android岗)
    前言双非一本、二本能进大厂么?能!自我介绍我,双非18线小城市二本,今年上岸阿里的P7岗(Android)但是作为一个错过秋招,学历不漂亮,实习转正被忽悠,从18线小城市到北京实习,投了上百份简历的苦逼双非学生,还是想说一句:进大厂太难难难难了!!!据说有6成的大学生都相信在毕业十年内能年薪过百万,而......
  • 阿里云99元的主机到底怎么样?
    我是卢松松,点点上面的头像,欢迎关注我哦!在云栖大会上,阿里云推出了一款绝对超级超值的99元云服务器,并号称是11月销量王。什么?云栖大会11月2号结束的,你就号称11月销量王,这是未卜先知啊。如果你也要买这块主机,一定更要仔细看了,本文绝对公平公正客观!作为多年的云主机代理商和分销商,松松......
  • 阿里云Ubuntu服务器优化
    阿里云Ubuntu服务器优化有台自用的阿里云测试服务器,最便宜的那种2核2G¥99/年,装的ubuntu22.04.之前用着感觉还行,最近几天使用vscodessh修改调试,搞了一段时间就不行,cpu和内存飙升至96%以上...之后就是各种反应迟钝,无法编译....太便宜了,提交工单都不好意思装个htop看了下,vscode......
  • Archi - 运维 - 一个经过10个服务的 API 请求,出现了随机无法访问的故障,如何解决
    问题描述一个API请求,出现了随机无法访问的故障,而这个API可能会经过5-10个服务,怎么快速定位是哪一个服务出现问题? 解决方案对于每一个请求,都会分配一个唯一的请求编号(requestId),在经过每一个服务的时候,都带上这个请求编号,每个服务都把这个请求的输入和输出记录下来,输入的......
  • python 递归上传文件到阿里云oss
    python递归上传文件到阿里云ossimportosimportoss2importjson#阿里云OSS访问信息access_key_id='xxxxxxxxx'access_key_secret='xxxxxxxxxxxxx'endpoint='xxxxxxxxxxxxx'bucket_name='bucketName'#本地目录路径local_directory......
  • 阿里Java一面,难度适中!(下篇)
    上一次因为文章篇幅和个人精力有限的原因,只分享了淘天的前6道题及其答案(点击访问上一篇)。接下来,咱们把其他几道题面试题及答案也分享给大家。1.公司简介淘天集团就是“淘宝”+“天猫”的结合,其集团拥有淘宝、天猫、1688、闲鱼等商业品牌,并通过天猫国际、淘宝直播、天猫超市、......
  • 原来阿里字节大厂程序员的简历长这样!
    1前言疫情过后,IT行业内卷就不说了,有很多小伙伴跟我咨询面试环节及简历上的事,都想在简历方面有些突出,博眼球。我发现大部分初、中级甚至高级程序员的简历逻辑都比较混乱,花里胡哨,没有突出重点,筛选简历的人员一眼看上去不知道优缺劣势。通过本人多年的被面试和面试别人的经验看过......