阿里云史诗级崩溃。。。

时间：2023-11-13 18:55:06浏览次数：34

标签：史诗服务阿里机房多活崩溃星球控制台

前言

昨天晚上阿里云史诗级崩溃了。

涉及到阿里云盘、淘宝、咸鱼、钉钉、语雀等等多条业务线产品。

“阿里云盘崩了”“淘宝又崩了”“闲鱼崩了”“钉钉崩了”等话题相继登上热搜，阿里系诸多产品受到影响。

这一次事故，影响范围之大，可以说是史诗级别的。

1 语雀出现异常

昨天那段时间，我正在使用语雀编辑知识星球中的文章，发现保存出现异常，页面直接报错了。

2 朋友圈很热闹

紧接着，我的朋友圈一下子热闹起来了。

大家都在评论这件事故，说明了它的严重性，影响范围太大了。

3 事件的过程

阿里云对此公告称，2023年11月12日17:44起，阿里云监控发现云产品控制台访问及API调用出现异常，阿里云工程师正在紧急介入排查。

18:54阿里云再度公告，经过工程师处理，杭州、北京等地域控制台已恢复，其他地域控制台服务逐步恢复中。

而最新流出的截图显示，阿里工程师通过分批重启组件服务，大部分地域控制台服务已恢复访问。

据悉，此次受影响产品包括企业级分布式应用服务、消息队列MQ、微服务引擎、链路追踪、应用高可用服务、应用实时监控服务、Prometheus监控服务、消息服务、消息队列Kafka版、机器学习、图像搜索、智能推荐AlRec等。

而受影响地域涵盖华北2 (北京)、华北6 (乌兰察布)、华北1 (青岛)、华东2(上海)、华南2(河源)、华北3(张家口)、中国香港、印度(孟买)、美国(硅谷)、华南1(深圳)、英国(伦敦)、韩国(首尔)、日本(东京)、阿联酉(迪拜)、西南1 (成都)、华南3 (广州)、新加坡、澳大利亚 (悉尼)、马来西亚(吉隆坡)、华北5 (呼和浩特)、印度尼西亚(雅加达)、美国 (弗吉尼亚)、菲律宾 (马尼拉)、泰国(曼谷)、华东1(杭州)、华南1金融云。

这并非阿里云首次出现大面积故障。

目前是什么原因，还不得而知。

4 我以前的经历

因此，我们如果有高并发的业务场景，务必要做高可用，异地多活的设计。

我们之前做游戏平台的时候，为了保证游戏登录接口的高可用，为了防止机房网络的问题，比如：整个机房突然断电，或者机房遇到某些不可逆的因素，比如：发生地震或者洪灾，导致这个机房挂了。

为了保证机房出现问题时，尽可能小的影响用户。

我们在做系统设计的时候，使用了异地多活的架构，将用户流量负载到了三个机房：深圳机房、天津机房和成都机房。

其中深圳机房占了40%的流量，天津机房占了30%的流量，成都机房占了30%的流量。

并且选择了阿里云和亚马逊云两个不同的云服务厂商。

我们那段时间，还真的遇到过某个机房整个停电的问题。

不好幸好做了异地多活的设计，如果一个机房挂了，流量可以切到另外两个机房当中，将用户的影响降低最低。

当然关于异地多活问题，感兴趣的小伙伴，可以加我微信找我私聊。

最后

欢迎加入苏三知识星球【Java突击队】，一起学习。

星球中有很多独家的干货内容，比如：Java后端学习路线，分享实战项目，源码分析，百万级系统设计，系统上线的一些坑，MQ专题，真实面试题，每天都会回答大家提出的问题，免费修改简历，免费回答工作中的问题。

星球目前开通了9个优质专栏：技术选型、系统设计、工作经验分享、工作实战、底层原理、Spring源码解读、痛点问题、高频面试题和性能优化。

加入星球如果不满意，3天内包退。

最后说一句(求关注，别白嫖我)

如果这篇文章对您有所帮助，或者有所启发的话，帮忙扫描下发二维码关注一下，您的支持是我坚持写作最大的动力。
求一键三连：点赞、转发、在看。
关注公众号：【苏三说技术】，在公众号中回复：面试、代码神器、开发手册、时间管理有超赞的粉丝福利，另外回复：加群，可以跟很多BAT大厂的前辈交流和学习。

标签：史诗,服务,阿里,机房,多活,崩溃,星球,控制台
From： https://www.cnblogs.com/12lisu/p/17829869.html

阿里云崩了，我们更愿意读“事件说明”还是“避坑指南”？
做软件的人：“工作体验好，好事才能来。”双十一后第一天，阿里云崩了从下图能看出，这次虽然只崩了3个多小时，但受影响的产品多，地域广。如图1。图1这次崩了受影响的产品多，地域广应该说，阿里云的健康状态页设计得还是很不错的。我很快就能找到这次崩了的持续时长，以及所影响的产品和......
阿里云严重故障，钉钉、淘宝、闲鱼、阿里云盘都崩了，阿里系史诗级故障！！
大家好，我是栈长。昨天17点多，栈长兴致来了，忙里偷闲正在看了一把LOLS13淘汰赛，没想到比赛还没看完朋友圈就已经炸锅了：朋友圈有人开玩笑说，阿里35岁的人是不是都被优化了？还是双11后都松懈了？这大周末的还让加班？让不让人省心点。。这我看完也有点懵B，大家还记得上次的语雀......
【故障公告】阿里云OSS故障造成图片无法上传
今天17:44~19:00期间，我们使用的阿里云对象存储OSS出现突发故障，造成图片无法上传，由此给您麻烦麻烦，请您谅解。故障期间对应的错误日志：TheOSSAccessKeyIdyouprovideddoesnotexistinourrecords.正当我们准备将图片上传切换到腾讯云COS时，19:00左右阿里云OSS......
接口开放太麻烦？试试阿里云API网关吧
前言我在多方合作时，系统间的交互是怎么做的？这篇文章中写过一些多方合作时接口的调用规则和例子，然而，接口开放所涉及的安全、权限、监控、流量控制等问题，可不是简简单单就可以解决的，这一般需要专业的开放平台来支撑。但为了开放几个接口就要做一个开放平台，实在是不合算。为此阿里云为......
双非18线小城市二本，成功上岸阿里P7（Android岗）
前言双非一本、二本能进大厂么？能！自我介绍我，双非18线小城市二本，今年上岸阿里的P7岗（Android）但是作为一个错过秋招，学历不漂亮，实习转正被忽悠，从18线小城市到北京实习，投了上百份简历的苦逼双非学生，还是想说一句：进大厂太难难难难了！！！据说有6成的大学生都相信在毕业十年内能年薪过百万，而......
开发老大周五叫我过去提需求，我崩溃了
开发老大周五叫我过去提需求，我崩溃了:scream:临近周五，心情那是一个美滋滋。结果下午开发老大就来找我了，叫我去他工位一趟，我心想：‘凉凉，这估计是来需求了'果然，需求是这样的：现在有个系统因为某种原因会导致数据库磁盘数据占满的情况，然后导致数据不能再存储的情况，最后导致系统崩......
阿里云99元的主机到底怎么样?
我是卢松松，点点上面的头像，欢迎关注我哦！在云栖大会上，阿里云推出了一款绝对超级超值的99元云服务器，并号称是11月销量王。什么?云栖大会11月2号结束的，你就号称11月销量王，这是未卜先知啊。如果你也要买这块主机，一定更要仔细看了，本文绝对公平公正客观！作为多年的云主机代理商和分销商，松松......
WINUI多点触控致程序崩溃
开发的图像软件在在进行多点触摸测试时，出现了程序崩溃。查看了程序了日志，全局异常捕捉并未将这个异常捕捉到，并记录到崩溃日志里。怀疑不是程序的编码问题，可能是由于其他原因造成所致。于是习惯性的打开事件查看器，查看应用程序相关日志，找到了一条应用程序崩溃事件：其详细信息如......
阿里云Ubuntu服务器优化
阿里云Ubuntu服务器优化有台自用的阿里云测试服务器，最便宜的那种2核2G￥99/年，装的ubuntu22.04.之前用着感觉还行，最近几天使用vscodessh修改调试，搞了一段时间就不行，cpu和内存飙升至96%以上...之后就是各种反应迟钝，无法编译....太便宜了，提交工单都不好意思装个htop看了下，vscode......
python 递归上传文件到阿里云oss
python递归上传文件到阿里云ossimportosimportoss2importjson#阿里云OSS访问信息access_key_id='xxxxxxxxx'access_key_secret='xxxxxxxxxxxxx'endpoint='xxxxxxxxxxxxx'bucket_name='bucketName'#本地目录路径local_directory......