一分钟精华速览
超 30 位专家共创,近 20 篇最佳实践,共计 15 万字。 联合所有编写成员正式发布,限量赠送,即日起申领。(方式见文末)
为什么整理行业最佳实践?
大量实践证明,分布式系统稳定性的提升,不仅仅需要从技术工具发力,还涉及到组织、制度流程、人员能力等方方面面的问题。而每家企业的组织关系、制度流程、技术工具,人员能力往往有自己的实际情况。
很难说直接有一套理论方法论,按照方法论一步步做,就能解决所有问题。每个企业由于行业的不一样,具体情况不一样,所采取的解决办法也不尽相同。
目前我们实践下来,比较好的稳定性提升办法,是需要借鉴各行业的实践经验,结合企业自有情况,真实改变一些真实问题,一步步推广,才能踏踏实实拿到结果。
2023 年上半年,我们推出了第一本印刷版的实践手册,受到大家蛮多的正面反馈,也给了我们更多的动力继续去弄。结合着第一期的手册,在这一期的内容里面,我们继续遵循以下原则来给大家分享社区专家的实践案例:
1.从真实问题案例出发;
2.能追寻到问题的根本原因;
3.能把解决办法讲清楚;
4.愿意讲实践过程的细节;
5.有实际的改善效果。
正如本刊封面所写,“可借鉴、可落地、有过程、有经验、有结果”。我们希望能通过这些行业领导者的硬核实战,来全方位解读风险,让从业者全面理解和掌握分布式系统业务连续性管理的全过程。尽可能让它能成为大家工作中的 “避坑指南” ,让大家在实践中少走弯路。
读过的人如何评价它?
王海清——中国信通院稳定性保障实验室负责人
“稳保”技术的研究和推广一直是中国信通院稳定性保障实验室的工作重心,我们期望发现并分享更多系统稳定性提升的最佳实践,以帮助各类企业在稳定性能力建设和解决方案选型过程中提供决策参考。
《数字业务连续性提升最佳实践》是一本少见的专注于系统稳定性的实操手册,它不仅强调理论实践的先进性,而且精选了各类企业在不同领域内的实践案例,为大家在稳定性建设上提供了宝贵的参考价值。书中既有策略设计的视角,又详尽地描述了如何将这些策略落实到实际工作中,让读者能够深入理解并应用其中的知识。
我鼓励每一位对系统稳定性有兴趣的同仁和专家,都能详细阅读本书,甚至将其作为工作中的参考手册。同时,我们也热切期待更多的同行加入到稳定性保障实验室的行列中来,一起探索更完善的“稳保”标准和更先进的技术实践,共同为行业的发展贡献智慧和力量。
吴天昊 中国联通软件研究院副总架构师
《数字业务连续性最佳实践》一书深入探讨了数字化时代下业务连续性的核心问题,结合丰富的案例和实践经验,为您提供了全方位的最实用的方法和最佳的实践,专业性和实用性都非常高,是一本指导您在数字化时代保持业务连续性的必备指南!我在本书中也结合中国联通稳定性保障体系和数字化监控平台,详细的介绍了中国联通在智能运维领域的应用实践,希望您可以从中获得经验和启示,保障系统稳定运行,提升业务连续性。
王植萌——去哪儿网 技术高级总监/技术委员会主席
系统稳定性是一个公司在一定阶段内技术先进性、架构合理性、组织纪律风貌、技术文化建设等因素的综合体现。去哪儿网一直追求用先进的理念、先进的技术和扎实的落地实践来做好稳定性建设的每一部分。这次很高兴能够在本书中将去哪儿网在近些年稳定性建设方面的一些成果拿出来与大家分享,藉由此书与业界同行者互通有无,相互学习,共同进步。稳定性建设无止境,此书记录的实践已经成为我们新的起点,让我们继续燃烧智慧,在更高的起点上用更为完善的实践挑战更高的稳定性标准。
熊军军——中国人寿寿险研发中心高级工程师
随着业务和技术的持续创新,稳定性保障工作也同步进入了深水区,一个明显的感受就是,近年来业内发生的生产事件呈现出“不常见、不确定、不好办”的特点。似乎从上一次技改以来,没过多久安生日子,就又进入了提心吊胆的状态!
如何破局?头痛医头脚痛医脚是不行的,技术管理人员往往倾向于升级整个稳定性保障体系,这里行之有效的办法就是向同业先进学习、取长补短。《数字业务连续性提升实践》就提供了这样一个知识交流的平台,用真心、讲干货、做实事,我自己读来受益匪浅,也很愿意把它推荐给各位同仁。
王洋——招商基金基础架构师
在当前的数字化时代,尤其是对于关系到民生的金融行业,业务系统的连续性对于金融行业的影响至关重要。因此,金融行业自身在进行系统规划的阶段,就会特别关注业务系统连续性方面的需求。《数字业务连续性提升最佳实践》精选了多个行业在数字业务连续性提升方面具有丰富经验专家编写的案例,从指标度量、风险管理、数据跟踪与观测、容量与成本、备份与恢复和发布管理等多个维度深入浅出的进行经验的分享,基于这些案例,相关从业人员可以学习大量业务系统连续性建设的优秀经验用于企业系统连续性建设。
王津银——优维科技创始人/CEO
我们如何定义 SRE?是一门技术学科?还是一种组织最佳实践?亦或是一个创新岗位?我有自己的长期思考,但在这里不值一提,因为本书会给你更好的答案。
谷歌认为:没有稳定性,软件交付效能就无法确保组织成功。我深以为然。在我的经验里,组织成功与业务成功、客户成功是唇齿相依、同此凉热的辩证关系。2023 年,我带领优维团队在 CMDB 数据运营、低代码个性化定制、应用架构可视化、产品最佳实践、应急管理、全面可观测等层面展开了大刀阔斧的全局性优化,归根结底就是在解决“可靠性”的问题。
SRE 之于运维是“立”与“破”的纠缠——立,是万物起源归于一致;破,是一切已知物理定律失效于奇点。SRE 的本质就是鼓励通过“破立”来交付可靠的业务价值并满足客户期望。
这本书凝聚了业界同行的深度思考,又有来自真实案例的实战淬炼,是 SRE 与 DevOps 统一文化、融合互补的价值文献,强烈推荐大家一起研读。
刘晓贝——吉利寰福科技 CTO
伴随着中国企业的数字化浪潮以及分布式系统的普及,我们在短短的几年里完成了从信息化到数字化的跨越。10 年前,大家都是双十一看淘宝的热闹,然而今天同样的事情已切身发生在自己身上——我们每个承载百万以上用户的企业,在节假日和高峰期都要万事俱备,如临大敌。
过去的我们过于粗糙,只懂蒙眼狂奔,无暇精细打磨。只懂 dev 不懂 ops,只管交付的“生”,不管运营的“养”,只顾量的增长,不屑于质的提升。欠下了累累的技术债,只能靠一线二线运维团队堵枪眼式地填坑,但是依然解决不了系统性塌陷的问题。
自从加入 TakinTalks 社区以来,与各位深受系统稳定性折磨的同行者一起,分享我们的经验教训和最佳实践,正如本书作者所述的那样,从战术到策略,系统性地给大家提供了参照物和手册,相信大家一起可以从基础的事情做起,共同提升中国软件公司的系统治理水平。
彭华盛——广发证券数字化运维研发团队负责人
自《Google SRE 运维解密》中文版出版以来,在国内引发了 SRE 热潮。书中明确提出了应以系统稳定性的 SLO/SOI 指标为核心,聚焦于架构韧性、容量管理、监控告警、OnCall、故障应急、故障复盘、运维平台等工作。“他山之石,可以攻玉”,近半年来,我每个月都会参加一到两次关于互联网同行的 SRE 沙龙分享,收获颇丰。本书是一本汇集行业领先 SRE 实践的书籍,书中以【实战经验】方式【体系化】地介绍了当前领先同行在系统稳定性保障上的经验。一方面,全书篇幅虽不长,但在具体内容上,源于一线、真实的【实战经验】干货,融入了专家的精心总结;另一方面,编委【体系化】地整理了 SRE 当前关注度量绩效/价值、风险防范、可观测、容量管理、应急管理、软件交付等主题,可以帮助读者建立 SRE 体系。虽然每个企业的禀赋不同,SRE 具体实践没有银弹,但本书能够给读者带来解决问题的全新视角,值得反复阅读。
曹学峰——数列科技创始人兼 CEO/TakinTalks 稳定性社区发起人
在当今数字化时代,分布式架构已成为各行业的核心基础设施。正是这样的系统设计,使得企业能够提供一站式服务,如电商的浏览、咨询、购买、售后等环节。然而,分布式系统的复杂性也带来了巨大的挑战,特别是在确保稳定性和响应性方面。客户的每一个操作,如下单,都可能触及数十甚至上百个后台系统。在这种环境下,如何保证每个请求都能得到及时、有效的响应,成为了一个紧迫的问题。
稳定性治理的核心在于预测和预防潜在的故障,确保客户体验的顺畅无阻。为此,我们需要构建一个全面的稳定性体系,不仅涵盖应急响应,更要注重预测性维护和系统优化。这样的体系不是一成不变的,而是需要不断吸收行业经验、促进专业讨论,并在实践中不断完善。
本刊物正致力于成为这一领域的知识交流平台。我们汇集了行业内的专家观点、最佳实践和创新思维,旨在提供深度分析和实用建议。通过我们的文章,我们希望为构建更加稳定、可预测的分布式系统架构提供指导,帮助企业构建可持续发展的稳定性体系。让每一次客户的请求都能平稳、顺畅地处理,是我们共同的目标。
实物长什么样?
谁对本刊有贡献?
编委会 &出品人:(排名不分先后)
杨德华 TakinTalks 社区发起人
王海清 中国信通院稳定性保障实验室负责人
李 全 货拉拉技术稳定性团队负责人
王植萌 去哪儿网技术高级总监、技术委员会主席
武安闯 哔哩哔哩 SRE 团队负责人
朱仕智 去哪儿网高级技术总监
石 鹏 美图高级运维经理
刘 昊 哔哩哔哩平台工程负责人
陆学慧 杭州数列科技 CTO
张观石 《SRE 原理与实践》作者、前虎牙 SRE 负责人
马小龙 微盟基础架构团队负责人
孟 闯 哈啰技术风险负责人
吴天昊 中国联通软件研究院副总架构师
熊军军 中国人寿寿险研发中心高级工程师
联合作者:(排名不分先后)
杨泽强 阿里云高级技术专家
钱 威 滴滴出行高级专家工程师、可观测架构负责人
王 鹏 去哪儿网基础架构部架构师
马阳阳 去哪儿网基础构架组资深研发工程师
王程田 哔哩哔哩资深开发工程师
向明享 微盟基础架构团队技术专家
沙丹丹 去哪儿旅行高级 Java 开发工程师
曾庆国 阿里云智能技术专家
童子龙 挚文集团基础平台技术总监
肖 双 去哪儿网基础平台技术 TL
陈靖贤 去哪儿网基础架构产品总监
戴明智 微盟基础架构团队技术专家
鲁国宁 去哪儿旅行测试开发专家
张 鹤 哔哩哔哩资深 SRE 专家
怎么免费领取?
方式一:如果你认识以上“贡献者”,可以找他们领取。
说明:每位专家赠书名额有限,赠完即止。统一由社区代寄,邮费社区承担(限国内)。
方式二:成为社区贡献者,或者推荐他人成为社区贡献者,可联系小助手领取。
说明:本人/推荐他人登记成为社区讲师,确定分享主题后,可获赠 1 本。邮费社区承担(限国内)。
方式三:积极参与社区推广与互动,达到条件者,可联系小助手领取。
说明:每月 30 日,社区将在 news.shulie.io 首页公布当月互动贡献榜单:公众号文章阅读前 3 名、文章转发次数前 3 名、视频号短视频点赞次数前 3 名、直播间有效提问次数前 3 名。进入榜单者,可获赠 1 本。邮费社区承担(限国内)。
Q&A:
Q1: 有电子版吗?
社区刊物为限量纸质版,暂不提供公开下载通道。
Q2: 哪里可以买到?
暂不发售。本刊为众多作者共创,且社区为公益性组织,故暂无公开售卖计划。
Q3:第一本书哪里还能领?(点击查看详情)
目前第一本已全部赠送完毕。暂无增印计划。
Q4:怎么成为讲师?
请您联系社区讲师对接人乔伊(微信:s18958048075),了解详细信息。
Q5:可以 1 人领取多本吗?
每人最多可领取 1 本。经验是用来分享的,书籍也是。
如您有其他疑问,请联系社区小助手
声明:本活动由公众号「TakinTalks 稳定性社区」发起,如有歧义,以社区发布的最新规则说明为准。
标签:连续性,社区,15,SRE,实践,稳定性,技术,2023,合集 From: https://blog.51cto.com/u_15203852/9159415