首页 > 其他分享 >「TakinTalks」_ 故障频繁发生,如何做好系统稳定性?

「TakinTalks」_ 故障频繁发生,如何做好系统稳定性?

时间:2022-12-30 13:31:25浏览次数:55  
标签:事故 SRE 稳定性 技术 TakinTalks 故障 分享


「TakinTalks」_ 故障频繁发生,如何做好系统稳定性?_架构师

  • 活动时间: 2022年7月16日,14:00-17:00
  • 活动地点:线上直播(infoQ视频号线上直播、B站直播间)

故障专题


程序员不能被同一原因的故障坑两次”——程序员的自我修养



移动互联网时代,业务场景多元、玩法多样瞬时流量高,系统的复杂度也越来越高。一次故障就是一次考试。不管你是研发、测试、运维,或其他“工种”,只要你身处IT行业,「故障」怕都是大家避之唯恐不及却无法绕开的一个梦魇和话题。

本次「TakinTalks」技术分享会:将会通过互联网典型故障事件出发,剖析故障成因,介绍治理实践经验和技术演进,并为如何做好故障复盘提供一定的参考,帮助大家可以更从容淡定、有章可循地做好系统稳定性建设。

嘉宾与分享主题

@武安闯 -bilibili·在线SRE负责人


「TakinTalks」_ 故障频繁发生,如何做好系统稳定性?_运维_02

  • 嘉宾介绍:

B站基础架构部在线业务SRE负责人。2016年加入B站,深度参与B站微服务拆分、云原生改造、高可用建设、SRE转型和稳定性体系落地等项目。当前主要关注B站在线业务的SRE稳定性体系建设和推广,对SRE的实践有深入的探索与思考。

  • 分享主题:

《B站”713事故“后的多活容灾建设优化》

  • 听众收益:

介绍常见的故障类型和解决方案(追加:B站大型活动中的踩坑实践分享),及B站的多活基架能力优化和多活切量预案平台建设。

  • 适合人群:

SRE工程师、研发、架构师等

@李道兵 -奈雪的茶·技术中心高级总监



「TakinTalks」_ 故障频繁发生,如何做好系统稳定性?_安全_03

  • 嘉宾介绍:

李道兵,奈雪的茶技术中心高级总监。先后在金山、盛大云、七牛云、京东云等公司工作。曾任盛大云资深研究员,七牛云SVP兼首席架构师、京东云高级总监。现主要关注连锁经营和供应链的产业互联网领域。

  • 分享主题:

《事故报告与事故复盘:不要浪费掉任何一次危机》

  • 听众收益:

每次事故,都会有事故报告和事故复盘的过程,如果不明晰这些流程的目的,那么这些流程就会流于形式,也丧失了通过事故来改进系统的机会,沦为简单的头疼医头,脚疼医脚的境地。

本次分享,将从实际工作经历出发,结合具体案例,向大家阐述我自己对事故报告、事故复盘的看法。

适合人群: 

  • 架构师
  • 技术团队负责人

主办方_ TakinTalks

「TakinTalks」是联合业界专家共同发起的稳定性技术交流平台,面向技术管理者与一线技术专家,定期探讨行业前沿技术,分享最佳实战经验。让技术知识的传播没有界限。

  • 聚焦SRE稳定性领域
  • 与业界TOP技术专家近距离交流
  • 与3000+同行探讨技术经验

合作伙伴_ bilibili技术

哔哩哔哩技术公众号会囊括B站技术相关的硬核分享,也有技术团队的招聘信息,你想看的技术内容都在这里。

合作媒体:



「TakinTalks」_ 故障频繁发生,如何做好系统稳定性?_安全_04


标签:事故,SRE,稳定性,技术,TakinTalks,故障,分享
From: https://blog.51cto.com/u_15203852/5980120

相关文章

  • 云网络运维必备神器:全链路故障诊断与分析
    摘要:华为云Stack全链路故障诊断与分析平台,以云网络中的逻辑网络、虚拟网络、物理网络作为网络故障分析诊断切入点,以三层网络路径拓扑为核心,端到端实现三层网络路径可视化。......
  • 云网络运维必备神器:全链路故障诊断与分析
    摘要:华为云Stack全链路故障诊断与分析平台,以云网络中的逻辑网络、虚拟网络、物理网络作为网络故障分析诊断切入点,以三层网络路径拓扑为核心,端到端实现三层网络路径可视化。......
  • Android 系统稳定性 - ANR(二)
    对/data/anr/trace.txt分析很好​​http://rayleeya.iteye.com/blog/1955657​​转载请注明出处,未经允许而盗用者追究法律责任。 很久之前写的了,留着有点浪费,共享之。......
  • 通过运维编排实现自动化智能运维与故障自愈
    自动化帮助用户消除重复性任务,从而降低运营成本、提高效率并提高团队生产力。但是,将自动化引入复杂的IT环境还需要编排。编排是指一次性自动执行多项任务,涉及到计算机系......
  • 排序算法之稳定性
    介绍稳定性:2个相等的数,在排序前后的顺序不变,就说这个排序算法是稳定。好处从一个键上排序,然后再从另一个键上排序,第一个键排序的结果可以为第二个键排序所用。例子基......
  • PLC控制的机器人喷涂生产线如何实现云端监控和故障报警
    在产品生产领域中,喷涂是重要的一个环节。在自动化喷涂流水线上,现在常常采用工业机器人来进行喷涂工作,既能搬动大件重物,又能实现喷涂工艺的精细调整,能够大大提高生产效率,也能......
  • Spark性能调优与故障处理
    大家好,我是梦想家Alex~今天为大家带来一份珍藏已久的资料Spark性能调优与故障处理 。目录结构从Spark性能调优再到Spark数据倾斜,以及最后的Spark故障排除常见场......
  • 哈啰出行高质量故障复盘法:“3+5+3”(附模板)
    #一分钟精华速览#故障复盘指的是及时把过去发生的错误,最大程度转化为未来可以规避的办法,其核心是不断减少失败因子繁衍的温床,将它们牢牢地掌控在不至于引发危机的范围之......
  • 哈啰出行高质量故障复盘法:“3+5+3”(附模板)
    哈啰出行高质量故障复盘法:“3+5+3”(附模板)原创TakinTalks稳定性社区故障复盘前天16:34阅读数2.6K本文被收录于专区大前端进入专区参与更多专题讨论 ......
  • Kubernetes-集群ETCD故障排查
    前言记录一次本地虚拟机Kubernetes集群排障过程。修复内容包括:1、Kubernetes证书过期,2、ETCD数据损坏发现问题[root@xuegod63~]#kubectlgetnodesTheconnectiontothe......