首页 > 其他分享 >DevOps、SRE、平台工程的区别

DevOps、SRE、平台工程的区别

时间:2023-04-22 21:13:07浏览次数:80  
标签:SRE 工程 区别 平台 DevOps 应用程序 团队

DevOps、SRE和平台工程的概念在不同时期出现,并由不同的个人和组织开发。
image.png

  • DevOps作为一个概念是由Patrick Debois和Andrew Shafer在2009年的敏捷会议上提出的。他们试图通过促进协作文化和在整个软件开发生命周期中共享责任来弥合软件开发和操作之间的差距。
  • SRE,即站点可靠性工程,是谷歌在21世纪初首创的,用于解决管理大型复杂系统的操作挑战。谷歌开发了SRE实践和工具,如Borg集群管理系统和Monarch监控系统,以提高其服务的可靠性和效率。
  • 平台工程是一个较新的概念,建立在SRE工程的基础上。平台工程的确切起源不太清楚,但它通常被理解为DevOps和SRE实践的扩展,重点是为支持整个业务视角的产品开发交付一个全面的平台。

值得注意的是,虽然这些概念出现在不同的时期。它们都与软件开发和操作中改进协作、自动化和效率的更广泛趋势有关。

在过去的十年中,工程和技术组织已经将构建和部署云原生应用程序的最佳实践集合在一起。这些最佳实践包括持续交付、容器化和构建可观察系统。
与此同时,云原生组织已经从根本上改变了他们的组织方式,从大型部门(开发、QA、运营、发布)转移到较小的独立开发团队。这些应用程序开发团队得到两个新功能的支持:站点可靠性工程和平台工程。SRE和平台工程是传统运维团队的精神继承者,将软件工程的学科带入运维的不同方面。

image.png

站点可靠性工程和平台工程

  • 平台工程团队应用软件工程原则来加速软件交付。平台工程师确保应用程序开发团队在软件交付生命周期的所有方面都是高效的。
  • 站点可靠性工程团队应用软件工程原则来提高可靠性。站点可靠性工程师将影响云应用整体可靠性的故障频率和影响降到最低。

这两个团队经常混淆,这两个术语有时可以互换使用。事实上,一些组织将SRE和平台工程合并到相同的功能中。之所以会出现这种情况,是因为这两个角色都适用一套共同的原则。

  • 平台即产品。这些团队应该花时间了解他们的内部客户,制定路线图,制定发布节奏计划,编写文档,以及完成软件产品中的所有事情。
  • 自助服务平台。这些团队构建自己的平台供内部使用。在这些平台中,对最佳实践进行了编码,因此这些平台的用户无需担心——他们只需按下按钮即可。在Puppet Labs的《2020年DevOps现状报告》中,Puppet Labs发现,高功能DevOps组织比低功能DevOps组织拥有更多的自助服务基础设施。
  • 消除辛劳的持续关注。正如谷歌SRE书中定义的那样,辛劳是手动的、重复的、自动化的、战术的工作。最好的SRE和平台团队能够识别并消除辛劳。

平台工程

平台工程师不断地检查从源代码到生产的整个软件开发生命周期。通过这个内省的过程,他们构建了一个工作流,使应用程序开发人员能够快速编写和发布软件。基本的工作流通常包括与持续集成系统相连接的源代码控制系统,以及将工件部署到生产环境中的方法。

随着使用工作流的应用程序开发人员数量的增长,平台的需求也在变化。不同的应用程序开发团队需要类似但不同的工作流,因此自助服务基础设施变得很重要。自助服务的常见平台工程目标包括CI/CD、警报和部署工作流。

除了自助服务,教育和协作也成为挑战。平台工程师发现,他们花越来越多的时间培训应用程序开发人员,让他们了解最佳实践和如何最好地使用平台。应用程序开发人员还发现他们依赖于其他应用程序开发人员团队,并期望平台工程团队为他们提供与不同团队高效协作的工具。

站点可靠性工程

站点可靠性工程师创建和改进系统,以自动可靠地运行应用程序。站点可靠性工程的概念起源于谷歌,详细记录在谷歌SRE手册中。谷歌公司负责技术运维的高级副总裁Ben Treynor Sloss将SRE描述为“当你要求软件工程师设计运维团队时发生的事情”。

SRE定义服务水平目标,并构建系统来帮助服务实现这些目标。这些系统发展成为一个平台和工作流程,包括监控、事件管理、消除单点故障、故障缓解等。

SRE文化的一个关键部分是将每一个故障视为可靠性系统中的一个故障。严格的事后分析对于识别故障的根本原因至关重要,并将纠正措施引入自动化系统以继续提高可靠性。

New Relic的SRE和平台工程

我们中的一个人(Bjorn Freeman-Benson)一直管理着New Relic的工程组织,直到2015年,它从少数客户发展到成千上万的客户,所有客户每秒都向云端发送数百万个请求。New Relic有独立的SRE和平台工程团队,他们遵循上述一般原则。

这些团队被分开建立的原因之一是,在这些角色中取得成功的人是不同的。虽然sre和平台工程师除了需要经典的编程技能外,还需要强大的系统工程技能,但这些角色决定了非常不同的性格类型。sre倾向于享受危机管理,并在排除故障时获得肾上腺素飙升。SRE经理能在巨大的压力下茁壮成长,擅长招募和管理想法相似的人。另一方面,平台工程师是更典型的软件工程师,他们更喜欢不间断地工作在大而复杂的问题上。平台工程经理更喜欢按照一致的节奏进行操作。

DevOps和GitOps

在过去的十年中,DevOps已经成为描述这些实践的一个流行术语。最近,GitOps也成为了一个流行术语。DevOps和GitOps与平台和SRE团队有什么关系?
DevOps和GitOps都是一套关于如何管理基础设施不同方面的松散编码原则。这两种哲学的核心原则——自动化、基础设施作为代码、软件工程的应用——非常相似。
DevOps是一场广泛的运动,它专注于消除开发和运维之间的传统竖井。随着时间的推移,基础设施自动化和考虑运维的工程应用等策略已经被广泛接受,成为更好地构建高可靠性应用程序的方法。
GitOps是一种应用程序交付方法。在GitOps中,声明性配置用于在任何时刻编码应用程序的所需状态。这个配置在版本化的源代码控制系统中作为唯一的真实数据源进行管理。这确保了可审计性、可再现性和配置的一致性。
简而言之:DevOps是SRE的一套指导原则,而GitOps是平台工程的一套指导原则。

解锁应用程序开发效率

站点可靠性工程和平台工程是优化构建云原生应用的工程组织的两个关键功能。SRE团队致力于为高可靠的应用程序交付基础架构,而平台工程团队致力于为快速的应用程序开发交付基础架构。这两个团队共同提高了应用程序开发团队的生产力。


参考:

标签:SRE,工程,区别,平台,DevOps,应用程序,团队
From: https://www.cnblogs.com/FLY_DREAM/p/17343954.html

相关文章

  • 可查的异常(checked exceptions)和不可查的异常(unchecked exceptions)区别?
    可查异常(编译器要求必须处置的异常):正确的程序在运行中,很容易出现的、情理可容的异常状况。可查异常虽然是异常状况,但在一定程度上它的发生是可以预计的,而且一旦发生这种异常状况,就必须采取某种方式进行处理。除了RuntimeException及其子类以外,其他的Exception类及其子类都属于......
  • throw和throws的区别?
    异常的申明(throws)在Java中,当前执行的语句必属于某个方法,Java解释器调用main方法执行开始执行程序。若方法中存在检查异常,如果不对其捕获,那必须在方法头中显式声明该异常,以便于告知方法调用者此方法有异常,需要进行处理。在方法中声明一个异常,方法头中使用关键字throws,后面接......
  • VirtualBox、Vagrant以及与Docker的区别
    VirtualBox和Vagrant都是虚拟化工具,用于在计算机上创建虚拟操作系统或虚拟开发环境。以下是它们的介绍:1.VirtualBox:VirtualBox是由Oracle公司开发的开源虚拟化软件,适用于Windows、Linux、Mac和其他操作系统。它允许用户在计算机上运行多个虚拟操作系统,这些操作系统以软件方式(......
  • #yyds干货盘点#区别WebSocket 与 Socket
    WebSocket是什么WebSocket是一种在单个TCP连接上进行全双工通信的协议。WebSocket使得客户端和服务器之间的数据交换变得更加简单,允许服务端主动向客户端推送数据。在WebSocketAPI中,浏览器和服务器只需要完成一次HTTP握手,两者之间就直接可以创建持久性的连接,并进行双向数......
  • windows和linux进程的区别
     Windows线程进程Windows中,进程拥有一个进程描述符,包含一些地址空间,打开的文件等共享资源,进程包含指向线程的指针,线程没有进程描述符,只描述一些少量的独有资源(线程局部存储tls?),比较轻量,同时共享进程的资源。 linux线程进程linux内核中,进程是用一个task_struct的结构体描述......
  • SRE接手新业务首要工作:运维准入测试
    如果接手的是一坨随时可能散架的破车,就算SRE有通天之能,也很难通过运维手段给变成布加迪威龙。接手的时候一定要做好准入测试!很多公司会有运维准入规范,但是通常缺少运维准入测试,导致了后续诸多背锅问题。前言你可能会遇到下面的问题:告诉研发做架构设计的时候要叫上运维做review,研发......
  • 6G 通信技术和 5G 通信技术的区别
    中国航天科工二院取得6G通信技术研发的重要突破,这是一项值得关注的成就。该成果可能包括6G无线网络通信协议和技术的研发、6G通信芯片的开发等方面,这些技术的突破将有助于推动全球通信技术的发展。目前,6G通信技术还处于研究和开发阶段,尚未投入商业应用。因此,对于6G技术的性能评测......
  • MySQL 时间类型 date、datetime 和 timestamp 的用法与区别
    时间范围datetime和timestamp区别时间范围不一样,TIMESTAMP要小很多,且最大范围为2038-01-1903:14:07.999999,到期也不远了。datetime与时区无关、timestamp与时区有关。对于timestamp,它把客户端插入的时间从当前时区转化为UTC(世界标准时间)进行存储。查询时,将其又转化为客户......
  • c 数组名和指针的区别
    关于c中数组名和指针的区别我写了一下程序进行测试并就自己的理解做了详细的解释,供自己以后复习,大佬批评指正和需要的网友参考学习。环境:gcc(mingw或cygwin)代码:1#include<stdlib.h>2intmain(intargc,charconst*argv[])3{4intarr[10]={23456,3,4,5,6,......
  • Math.ceil,Math.round,Math.floor区别
    Math.ceil,Math.round,Math.floor区别//向上取整System.out.println("amt1="+Math.ceil(71.01));//四舍五入System.out.println("amt2="+Math.round(71.01));//向下取值,直接舍弃小数点System.out.println("amt3=......