首页 > 其他分享 >引领变革:SRE 如何彻底改变 IT 运营

引领变革:SRE 如何彻底改变 IT 运营

时间:2023-12-27 18:02:27浏览次数:26  
标签:引领 SRE 解决方案 系统 DevOps 彻底改变 运营 团队

站点可靠性工程是一种新的实践,在许多企业中越来越受欢迎。这项新活动也称为 SRE,重点关注监控、跟踪错误以及创建长期解决问题的系统和自动化。

如今,大多数公司都喜欢部署创可贴解决方案,这往往会给他们带来有缺陷的系统,当出现错误时很容易崩溃。SRE 实践通过重视主动监控问题和创建长期解决方案来解决这个问题。随着越来越多的公司采用 SRE,他们改变了 IT 部门的运营方式。

引领变革:SRE 如何彻底改变 IT 运营_IT

什么是 IT 运维?

信息技术运营(IT Ops)是监督信息技术基础设施和应用程序生命周期管理的学科。IT 运营专注于确保公司的 IT 基础设施健康、安全且可扩展。IT 运营是一个广泛的术语,涵盖各个部门,每个部门都为 IT 运营的整体成功做出了贡献。

SRE 与 DevOps

关于SRE 与 DevOps,将一个视为目标,将另一个视为实现该目标的手段会有所帮助。DevOps 旨在将开发和运营合二为一。站点可靠性工程使这一意图成为可能。所以,从鸟瞰的角度来看,DevOps 是目标,SRE 是方法。DevOps 讨论了需要做什么来协调开发和运营的目标和活动。SRE 回答了“我们如何实现这一目标?”的问题。

以下是 SRE 对企业运营产生积极影响的一些方式。

1. 软件优先的方法

任何维护 SRE 团队的公司都会经常听到他们谈论使用软件实现流程自动化。站点可靠性工程的核心目标是实现自动化流程,一劳永逸地解决问题。关于 SRE 的大多数误解是,它的目标是发现漏洞并修补它们。但 SRE 更多的是创建一个在发生泄漏时自动更换管道的系统。

SRE 的大部分内容是开发自动化事件管理的软件和系统。这种自动化优先的思维方式非常重视 IT 领域的系统构建者,并教导整个公司在我们所做的一切事情中适应同一流派的思想。当您可以将手动任务自动化时,为什么还要坚持执行手动任务呢?

2. 关注 SLO 和错误预算

SRE 团队的首要任务之一是确定服务级别目标或最低可用性目标。SLO 是团队在系统或软件对用户的可用性方面必须满足的最低要求。他们接下来要做的就是设置错误预算,这表明系统允许的错误幅度。

这意味着 SRE 在提供卓越的客户体验方面非常重视承诺。即使 SRE 团队进行错误跟踪的方式也应该有用户体验的方法。这与许多其他 SRE 实践一起,有助于弥合人们如何使用系统与开发人员如何设计系统以满足最低卓越标准之间的差距。

3. 主动稳定性保障

成为一名优秀的站点可靠性工程师的关键在于积极主动的能力。鉴于93% 的 SRE将其工作与“监控和警报”相关联,因此关键的问题解决技能是必须的。凭借 IT 运营方面的可用技能,它会影响整个部门甚至整个公司,从而推动整个以解决方案为导向的文化。积极主动的文化为系统和运营带来更大的稳定性保证。

4. 开发和运营协作

为了使站点可靠性管理有效,必须进行协作和协调。这可能就是 81% 的 SRE 大部分工作在办公室进行的原因。尽管多年来 SRE 在家工作的情况有所增加,但重点是 SRE 实践以协作为中心。

SRE 文化提倡使用服务级别协议 (SLA) 和指标来调整业务目标并进行监控,以帮助我们了解性能和错误管理。SRE 团队的主要工作是发现系统中的错误、找到根本问题并解决它们。通过与所有参与者和部门合作维持一个健康的系统,SRE 或 SRE 团队鼓励携手合作,并以某种方式“迫使”我们团结起来解决系统问题。

5. 商品化效率和 SRE 解决方案

SRE 角色和职责可能相当广泛,因此成本高昂,尤其是对于小型组织而言。例如,拥有事件管理系统的成本可能是天文数字,如果您是 Facebook 或 Google 这样的公司,这可能是合理的。但如果您是一家科技初创公司或中小型科技公司怎么办?

为了满足将更有效的实践商品化的需求,多年来事件管理系统市场不断增长。

采用 SRE 模型

技术正在永远改变企业的运营方式,企业开展的许多活动开始变得更加数字化。SRE 允许来自各种实践(无论是技术相关的还是非技术相关的)的所有人都可以采用软件开发方法来解决所有问题。当团队将 SRE 成熟度模型、SRE 原则、实践和技能混合在一起部署时,它彻底改变了我们处理问题和提出解决方案的方式。

以下是团队在公司中采用 SRE 模型或方法的方式。

  • 定义框架部署 SRE 模型的第一步是定义框架。确定您的部门或团队可能采用的参数、工具和文化,并决定使用这些已部署的系统。
  • 雇用熟练的工程师关于 SRE 团队是否需要擅长运维的开发人员或擅长开发的运维人员存在争议。虽然是先有鸡还是先有蛋的玩笑,但重要的是 SRE 团队必须有既了解游戏工程又了解系统应用和运营方面的人员。
  • 实施工具和技术SRE 团队使用所有可用的工具,包括 SRE 的开源项目,为公司的系统带来更高的稳定性。公司还需要建立事件管理系统。借助良好的 SRE 和事件管理工具,较小的公司甚至可以在需要时让随叫随到或兼职的 SRE 参与处理事件,从而显着改善工程交付、加快恢复速度并减少 SLO 违规。
  • 更新流程随着问题适应的方式,解决方案制定者也需要适应。SRE 建立在适应性原则之上——能够随着时代的变化而转变、调整和改变。正如一句老话所说,这个世界上唯一不变的就是变化。在我们生活的这个世界的不确定性、模糊性和易变性中,可能出错的事情很可能会出错(正如墨菲定律所述),团队或组织的适应能力非常有帮助。帮助 SRE 团队更轻松地进行转型的一方面是拥有正确的 IT 管理软件工具来更好地监控、分析和实施解决方案,以修复操作级别的事件、错误和问题。配备 SRE 或 SRE 团队可以更轻松地为常见问题创建解决方案。
  • 改变文化以支持模型SRE 的核心不是系统或软件,而是文化。这种文化强调三个不容谈判的因素:主动性、以解决方案为中心和用户体验。就这一点而言,致力于 DevOps 和 SRE 的部门以及整个公司都应该支持该模型。

结论

为了在不断变化的环境中保持竞争力,鼓励组织探索和实施 SRE 模型。采用 SRE 模型不仅是一种技术转变,也是一种文化转变,强调主动性、解决方案重点和用户体验。

标签:引领,SRE,解决方案,系统,DevOps,彻底改变,运营,团队
From: https://blog.51cto.com/u_15605878/9002650

相关文章

  • 孙宇晨和波场TRON的2023年:数字时代的布道者与引领者
    2023年,尽管加密货币市场仍然充满了波动,但对于孙宇晨来说,是再一次华丽收官之年。这一年里,FTX崩盘的余波击退了投资者和从业者的信心,也使得监管机构第一次对这个新兴行业投来审视的目光。行业内外的双重打击之下,作为波场TRON的创始人和火币HTX全球顾问委员会委员,孙宇晨在中国......
  • 融云获评「全球领航者·年度服务商」,自制《地图》引领行业风潮
    12月19日,由新黄河、经济观察报与霞光智库共同举办的“潮起·奔流——2023全球领航者大会”在北京举办。关注【融云全球互联网通信云】了解更多大会重磅发布“全球领航者2023年度榜单”,融云获评“全球领航者·年度服务商”。作为在出海大年收尾时举办的一场总结大会,众多出海......
  • 一体式读卡器:引领数据读取新潮流
    一体式读卡器:引领数据读取新潮流随着科技的发展,读卡器在各个领域的应用越来越广泛,如工业自动化生产、身份认证、门禁控制、数据采集等。读卡器主要有两种类型:一体式读卡器和分体式读卡器。这两种类型的读卡器各有其优缺点,适用于不同的应用场景。本文将重点探讨一体式读卡器相对于分......
  • 建管家受邀出席2023第五届建筑供应链大会,以数字化服务引领行业新风向
     12月7日至9日,2023第五届建筑供应链大会在浙江省绍兴市盛大召开。本次大会由中国建筑业协会主办,汇聚了众多行业协会、领军企业以及专家学者,共同探讨建筑供应链的创新与协同发展。作为中国建筑业协会的优秀会员及数字化服务商,建管家受邀出席并在现场展示了其独特的数字化服务成果......
  • 仓储园区3D可视化:引领管理新纪元
    在数字化浪潮的推动下,各行各业都在寻求创新与突破。仓储行业作为物流链的重要环节,其管理方式的升级显得尤为重要。传统的仓储管理方式,由于信息不透明、操作复杂等问题,已逐渐无法满足现代企业的需求。而仓储园区3D可视化技术的出现,为仓储管理带来了革命性的变革。 仓储园区3D可......
  • 测试开发 | 人工智能引领交通运输革命
    随着城市化的不断推进和人口的增长,交通运输系统正面临着前所未有的挑战。为了应对交通拥堵、提高安全性以及优化运输效率,人工智能技术在交通运输领域崭露头角。本文将深入探讨人工智能在交通运输中的应用,探讨其对于交通系统的革命性影响。1.智能交通管理:人工智能技术为城市交通管......
  • 测试开发 | AI在交通运输中的引领作用:智能交通系统与城市流动
    随着城市化的加速和交通需求的不断增长,传统的交通管理方式面临挑战。人工智能(AI)技术的崛起为交通运输带来了新的机遇和解决方案。本文将深入探讨AI在交通运输中的角色,特别是智能交通系统在塑造城市流动性方面的引领作用。1.智能交通系统的核心:智能交通系统是AI在交通领域中的核心......
  • ChatGPT引领AI时代:程序员、项目经理、产品经理、架构师、Python量化交易师的翅膀
    ......
  • SRE Google运维解密 4-9章
    第四章服务质量目标如果不详细了解服务中各种行为的重要程度,并且不去度量这些行为的正确性的话,就无法正确运维这个系统,更不要说可靠低运维了。那么,不管是对外服务,还是内部API,我们都需要制定一个针对用户的服务质量目标,并且努力去达到这个质量目标。服务质量指标(SLI)服务质量目......
  • 按马哥教育关于2023版Linux云计算SRE工程师掌握知识类别,你会了哪些?
    模块1:Linux新手快速基础入门模块2:面试必备-企业级Shell脚本编程实战模块3:Linux系统结构、内核、进程进阶模块4:网络管理管理及互联网通信实战模块5:互联网常见服务应用实战模块6:网络安全、加密及安全通信实战模块7:安全加固内核防火墙Iptables模块8:企业级Web-LA/NMP架......