首页 > 其他分享 >语雀故障与反思,顺便再领半年会员!

语雀故障与反思,顺便再领半年会员!

时间:2023-11-13 10:32:14浏览次数:27  
标签:存储 再领 语雀 运维 故障 点击 会员 反思

23 日语雀的故障相信大部分人都已经知道了,官方发布的公告是这样的:

10 月 23 日语雀出现重大服务故障,且持续 7 个多小时才完全恢复,给用户使用造成极大不便,对此我们深感抱歉。经过复盘,我们在这里向大家进一步说明故障原因、修复过程和改进措施。

故障原因及处理过程:

10 月 23 日下午,服务语雀的数据存储运维团队在进行升级操作时,由于新的运维升级工具 bug,导致华东地区生产环境存储服务器被误下线。受其影响,语雀数据服务发生严重故障,造成大面积的服务中断。为了尽快恢复服务,我们和数据存储运维团队全力进行数据恢复工作,但受限于恢复方案、数据量级等因素,整体用时较长。具体过程如下:

14:07 数据存储运维团队收到监控系统报警,定位到原因是存储在升级中因新的运维工具 bug 导致节点机器下线;14:15 联系硬件团队尝试将下线机器重新上线;15:00 确认因存储系统使用的机器类别较老,无法直接操作上线,立即调整恢复方案为从备份系统中恢复存储数据。15:10 开始新建存储系统,从备份中开始恢复数据,由于语雀数据量庞大,此过程历时较长,19 点完成数据恢复;同时为保障数据完整性,在完成恢复后,用时 2 个小时进行数据校验;21 点存储系统通过完整性校验,开始和语雀团队联调,最终在 22 点恢复语雀全部服务。用户所有数据均未丢失。

改进措施:

1、升级硬件版本和机型,实现离线后的快速上线。该措施在本次故障修复中已完成; 2、运维团队加强运维工具的质量保障与测试,杜绝此类运维 bug 再次发生; 3、缩小运维动作灰度范围,增加灰度时间,提前发现 bug; 4、从架构和高可用层面改进服务,为语雀增加存储系统的异地灾备。

赔偿方案:

为了表达我们的歉意,我们将向所有受到故障影响的用户提供如下赔偿方案: 针对语雀个人用户,我们赠送 6 个月的会员服务。操作流程:进入工作台「账户设置」,点击左侧「会员信息」,在会员信息页面点击「立即领取」,即可获得赠送服务。

先领会员

1.点击“账户设置”

语雀故障与反思,顺便再领半年会员!_产品

2.点击“会员信息”

点击“会员信息”之后点击“立即领取”

语雀故障与反思,顺便再领半年会员!_产品_02

3.领取成功

语雀故障与反思,顺便再领半年会员!_产品_03

操作很简单,也很丝滑,半年语雀会员就到手了。

问题反思

  1. 一定要有异地容灾。
  2. 一定要做好规范操作培训工作。
  3. 一定要有线上重大操作的完整审计流程。
  4. 定期测试和演练。

小结

作为一个千万级的产品,一定要做好容灾处理。小事故最好没有,大事故坚决不能有。用户对产品的“信任”是最重要的,一旦被贴上“不靠谱”的标签,那之前的一切就都毁了。

通过这件事也给我们普通人提个醒,要做好个人的信息备份和容灾,起码要多平台定期备份,这样出问题时,才不会太被动。

标签:存储,再领,语雀,运维,故障,点击,会员,反思
From: https://blog.51cto.com/vipstone/8338319

相关文章

  • NOIP模拟<反思>
    NOIP2023模拟12联测33构造手摸你就会发现\(ryxyryxyr\),这样会更优,而且从第三行开始会有多余的贡献。点击查看代码//ubsan:undefined//accoders#include<bits/stdc++.h>usingnamespacestd;chars[100];charans[100][100];intmain(){freopen("ryx.in","r",s......
  • 语雀崩了,免费送VIP6个月,赶紧薅!!
    一、前言在一个无聊的周一,下午浑浑噩噩的时候,一条公众号信息引起我的关注。什么东西?语雀这种量级的产品也能崩?看了一下还真是官方公众号发的!!心里不由得出现,完蛋整个团队要打包遣散了。其实小编一直使用语雀,感觉阿里麾下的,能靠谱点!经过这次,肯定有部分去飞书了!虽然挂了,但是数......
  • 语雀10.23事故分析
    语雀10.23事故分析语雀公告:https://mp.weixin.qq.com/s/WFLLU8R4bmiqv6OGa-QMcw事故原因:领会员欢迎关注公-众-号【TaonyDaily】、留言、评论,一起学习。Don’treinventthewheel,librarycodeistheretohelp.文章来源:刘俊涛的博客若有帮助到您,欢迎点赞、转发......
  • 关于“语雀故障公告”的学习与思考:可监控!可灰度!可回滚!
    你好呀,我是歪歪。昨天晚上语雀发布了关于10月23日的故障公告,公告中关于故障的时间点梳理如下:这是公告链接:https://mp.weixin.qq.com/s/WFLLU8R4bmiqv6OGa-QMcw14:07数据存储运维团队收到监控系统报警,定位到原因是存储在升级中因新的运维工具bug导致节点机器下线;14:15......
  • [不好分类]仿照语雀故障分析内部一起故障处理的过程
    近期公司发生一起信息系统故障。尝试分析一下。时间线10月18日8:24用户提报MES系统收付关系有误,无法获取进出厂班量。9:12管理员答复,核查一下。10月19日21:00芳烃、烯烃、塑料等车间反馈班量采集错误。22:59管理员答复,发现约5个装置的进出厂收付关系丢失。第二日会核实后......
  • 语雀故障与反思,顺便再领半年会员!
    23日语雀的故障相信大部分人都已经知道了,官方发布的公告是这样的:10月23日语雀出现重大服务故障,且持续7个多小时才完全恢复,给用户使用造成极大不便,对此我们深感抱歉。经过复盘,我们在这里向大家进一步说明故障原因、修复过程和改进措施。故障原因及处理过程:10月23日下......
  • [不好分类]yuque.com语雀无法访问
    事件备忘:从2023年10月23日下午14:00左右开始至发稿,无法访问yuque.com的web,报错为500,跳转到https://www.yuque.com/500?real_status=500 原因猜测:作为一款web应用,无法从web访问应该是比较严重的事故。个人猜测是后端基础设施故障,或者未知发布导致应用故障。公众号咨询,官方......
  • csp-j 2020 反思
    关于这次的pj,我T1看错题,T2没想出来(直到考完,LYR提醒我才想起一个叫桶排的东西),然后没了信心做T3,T4,从考试开始一直慌到结束。分数难以接受,整个人郁闷到了极点。考完之后反省,发现还是基础掌握薄弱,学了一些较为高级的算法后,把最根本的东西忘了,有一些知识点囫囵吞枣略过了。在考试的临......
  • 反思---树上LIS
    反思---树上LIS题目描述给你一棵n个节点的树,树的每个节点上都有一个值a[i]。现在要您求出从1号点到i号点的最短路径上最长上升子序列的长度。就是单调栈优化+dfs回溯对比两段代码的dfs部分://ACCodeinlinevoiddfs(intu,intf){ intw=lower_bound(b+1,b+l+1,a[......
  • 关于当下ChatGPT在软件工程编码过程反思
        背景    首先声明笔者是软件开发多年经历,对于ChatGPT过程中一些观察,仅代表个人观点。对于才工作的新人,没有更多软件开发与编码经验,可能ChatGPT帮助更大。当下ChatGPT在软件工程编码过程反思:    风险一: ChatGPT当下对于整个软件工程优化与改进所有源代码效......