首页 > 其他分享 >阿里云史诗级崩溃。。。

阿里云史诗级崩溃。。。

时间:2023-11-13 18:55:06浏览次数:34  
标签:史诗 服务 阿里 机房 多活 崩溃 星球 控制台

前言

昨天晚上阿里云史诗级崩溃了。

涉及到阿里云盘、淘宝、咸鱼、钉钉、语雀等等多条业务线产品。

“阿里云盘崩了”“淘宝又崩了”“闲鱼崩了”“钉钉崩了”等话题相继登上热搜,阿里系诸多产品受到影响。

这一次事故,影响范围之大,可以说是史诗级别的。

1 语雀出现异常

昨天那段时间,我正在使用语雀编辑知识星球中的文章,发现保存出现异常,页面直接报错了。

2 朋友圈很热闹

紧接着,我的朋友圈一下子热闹起来了。

大家都在评论这件事故,说明了它的严重性,影响范围太大了。

3 事件的过程

阿里云对此公告称,2023年11月12日17:44起,阿里云监控发现云产品控制台访问及API调用出现异常,阿里云工程师正在紧急介入排查。

18:54阿里云再度公告,经过工程师处理,杭州、北京等地域控制台已恢复,其他地域控制台服务逐步恢复中。

而最新流出的截图显示,阿里工程师通过分批重启组件服务,大部分地域控制台服务已恢复访问。

据悉,此次受影响产品包括企业级分布式应用服务、消息队列MQ、微服务引擎、链路追踪、应用高可用服务、应用实时监控服务、Prometheus监控服务、消息服务、消息队列Kafka版、机器学习、图像搜索、智能推荐AlRec等。

而受影响地域涵盖华北2 (北京)、华北6 (乌兰察布)、 华北1 (青岛)、华东2(上海)、华南2(河源)、华北3(张家口)、中国香港、印度(孟买)、美国(硅谷)、华南1(深圳)、英国(伦敦)、韩国(首尔)、日本(东京)、阿联酉(迪拜)、西南1 (成都)、华南3 (广州)、新加坡、澳大利亚 (悉尼)、马来西亚(吉隆坡)、 华北5 (呼和浩特)、 印度 尼西亚(雅加达)、美国 (弗吉尼亚)、菲律宾 (马尼拉)、泰国(曼谷)、华东1(杭州)、华南1金融云。

这并非阿里云首次出现大面积故障。

目前是什么原因,还不得而知。

4 我以前的经历

因此,我们如果有高并发的业务场景,务必要做高可用,异地多活的设计。

我们之前做游戏平台的时候,为了保证游戏登录接口的高可用,为了防止机房网络的问题,比如:整个机房突然断电,或者机房遇到某些不可逆的因素,比如:发生地震或者洪灾,导致这个机房挂了。

为了保证机房出现问题时,尽可能小的影响用户。

我们在做系统设计的时候,使用了异地多活的架构,将用户流量负载到了三个机房:深圳机房、天津机房和成都机房。

其中深圳机房占了40%的流量,天津机房占了30%的流量,成都机房占了30%的流量。

并且选择了阿里云和亚马逊云两个不同的云服务厂商。

我们那段时间,还真的遇到过某个机房整个停电的问题。

不好幸好做了异地多活的设计,如果一个机房挂了,流量可以切到另外两个机房当中,将用户的影响降低最低。

当然关于异地多活问题,感兴趣的小伙伴,可以加我微信找我私聊。

最后

欢迎加入苏三知识星球【Java突击队】,一起学习。

星球中有很多独家的干货内容,比如:Java后端学习路线,分享实战项目,源码分析,百万级系统设计,系统上线的一些坑,MQ专题,真实面试题,每天都会回答大家提出的问题,免费修改简历,免费回答工作中的问题。

星球目前开通了9个优质专栏:技术选型、系统设计、工作经验分享、工作实战、底层原理、Spring源码解读、痛点问题、高频面试题 和 性能优化。


加入星球如果不满意,3天内包退。

最后说一句(求关注,别白嫖我)

如果这篇文章对您有所帮助,或者有所启发的话,帮忙扫描下发二维码关注一下,您的支持是我坚持写作最大的动力。
求一键三连:点赞、转发、在看。
关注公众号:【苏三说技术】,在公众号中回复:面试、代码神器、开发手册、时间管理有超赞的粉丝福利,另外回复:加群,可以跟很多BAT大厂的前辈交流和学习。

标签:史诗,服务,阿里,机房,多活,崩溃,星球,控制台
From: https://www.cnblogs.com/12lisu/p/17829869.html

相关文章

  • 阿里云崩了,我们更愿意读“事件说明”还是“避坑指南”?
    做软件的人:“工作体验好,好事才能来。”双十一后第一天,阿里云崩了从下图能看出,这次虽然只崩了3个多小时,但受影响的产品多,地域广。如图1。图1这次崩了受影响的产品多,地域广应该说,阿里云的健康状态页设计得还是很不错的。我很快就能找到这次崩了的持续时长,以及所影响的产品和......
  • 阿里云严重故障,钉钉、淘宝、闲鱼、阿里云盘都崩了,阿里系史诗级故障!!
    大家好,我是栈长。昨天17点多,栈长兴致来了,忙里偷闲正在看了一把LOLS13淘汰赛,没想到比赛还没看完朋友圈就已经炸锅了:朋友圈有人开玩笑说,阿里35岁的人是不是都被优化了?还是双11后都松懈了?这大周末的还让加班?让不让人省心点。。这我看完也有点懵B,大家还记得上次的语雀......
  • 【故障公告】阿里云OSS故障造成图片无法上传
    今天17:44~19:00期间,我们使用的阿里云对象存储OSS出现突发故障,造成图片无法上传,由此给您麻烦麻烦,请您谅解。故障期间对应的错误日志:TheOSSAccessKeyIdyouprovideddoesnotexistinourrecords.正当我们准备将图片上传切换到腾讯云COS时,19:00左右阿里云OSS......
  • 接口开放太麻烦?试试阿里云API网关吧
    前言我在多方合作时,系统间的交互是怎么做的?这篇文章中写过一些多方合作时接口的调用规则和例子,然而,接口开放所涉及的安全、权限、监控、流量控制等问题,可不是简简单单就可以解决的,这一般需要专业的开放平台来支撑。但为了开放几个接口就要做一个开放平台,实在是不合算。为此阿里云为......
  • 双非18线小城市二本,成功上岸阿里P7(Android岗)
    前言双非一本、二本能进大厂么?能!自我介绍我,双非18线小城市二本,今年上岸阿里的P7岗(Android)但是作为一个错过秋招,学历不漂亮,实习转正被忽悠,从18线小城市到北京实习,投了上百份简历的苦逼双非学生,还是想说一句:进大厂太难难难难了!!!据说有6成的大学生都相信在毕业十年内能年薪过百万,而......
  • 开发老大周五叫我过去提需求,我崩溃了
    开发老大周五叫我过去提需求,我崩溃了:scream:临近周五,心情那是一个美滋滋。结果下午开发老大就来找我了,叫我去他工位一趟,我心想:‘凉凉,这估计是来需求了'果然,需求是这样的:现在有个系统因为某种原因会导致数据库磁盘数据占满的情况,然后导致数据不能再存储的情况,最后导致系统崩......
  • 阿里云99元的主机到底怎么样?
    我是卢松松,点点上面的头像,欢迎关注我哦!在云栖大会上,阿里云推出了一款绝对超级超值的99元云服务器,并号称是11月销量王。什么?云栖大会11月2号结束的,你就号称11月销量王,这是未卜先知啊。如果你也要买这块主机,一定更要仔细看了,本文绝对公平公正客观!作为多年的云主机代理商和分销商,松松......
  • WINUI多点触控致程序崩溃
    开发的图像软件在在进行多点触摸测试时,出现了程序崩溃。查看了程序了日志,全局异常捕捉并未将这个异常捕捉到,并记录到崩溃日志里。怀疑不是程序的编码问题,可能是由于其他原因造成所致。于是习惯性的打开事件查看器,查看应用程序相关日志,找到了一条应用程序崩溃事件: 其详细信息如......
  • 阿里云Ubuntu服务器优化
    阿里云Ubuntu服务器优化有台自用的阿里云测试服务器,最便宜的那种2核2G¥99/年,装的ubuntu22.04.之前用着感觉还行,最近几天使用vscodessh修改调试,搞了一段时间就不行,cpu和内存飙升至96%以上...之后就是各种反应迟钝,无法编译....太便宜了,提交工单都不好意思装个htop看了下,vscode......
  • python 递归上传文件到阿里云oss
    python递归上传文件到阿里云ossimportosimportoss2importjson#阿里云OSS访问信息access_key_id='xxxxxxxxx'access_key_secret='xxxxxxxxxxxxx'endpoint='xxxxxxxxxxxxx'bucket_name='bucketName'#本地目录路径local_directory......