首页 > 其他分享 >站点可靠性工程 (SRE)

站点可靠性工程 (SRE)

时间:2023-08-03 11:33:41浏览次数:41  
标签:可靠性 SRE 站点 最终用户 基础架构 监控 管理员 SLO

随着世界各地的组织努力开发安全、可靠、可扩展且可持续的 IT 基础架构,对高效基础架构监控和管理的需求日益增长,企业正在用不可扩展的遗留架构换取现代解决方案,在尖端技术的推动下,这些使基础设施管理过程更加顺畅和轻松,其中一项技术是站点可靠性工程 (SRE),它有助于扩展基础结构管理流程。

什么是 SRE

站点可靠性工程 (SRE) 是指使用软件工具自动执行 IT 基础架构任务(如系统管理和应用程序监控)的做法,组织使用 SRE 来确保其软件应用程序在开发团队频繁更新时保持可靠,SRE 特别提高了可扩展软件系统的可靠性,因为使用软件管理大型系统比手动管理数百台计算机更具可持续性。

SRE 专注于开发和管理可持续且可靠的网络,以提供无缝的最终用户体验,同时确保基础设施正常运行。

为什么站点可靠性工程很重要

站点可靠性描述了应用程序提供给最终用户后的稳定性和服务质量。如果未发现技术问题,软件维护有时会影响软件的可靠性。例如,当开发人员进行新的更改时,可能会无意中影响现有应用程序,并导致软件在某些使用案例中崩溃。

以下是站点可靠性工程 (SRE) 实践的一些好处:

  • 增强合作
  • 客户体验增强
  • 操作规划得到改进

增强合作

SRE 改善了开发和运营团队之间的协作。开发人员通常必须对应用程序进行快速更改,以发布新功能或修复关键错误。另一方面,运营团队必须确保服务无缝交付,因此,运营团队需要使用 SRE 实践来密切监控每一次更新,并及时响应因变更而出现的任何问题。

客户体验增强

组织使用 SRE 模型来确保软件错误不会影响客户体验。例如,软件团队使用 SRE 工具来实现软件开发生命周期自动化,这样可以减少错误,意味着团队可以将新功能开发优先于漏洞修复。

操作规划得到改进

SRE 团队接受软件失败的现实可能性。因此,团队需要计划适当的事故响应,以尽量减少停机时间对业务和最终用户的影响,其还可以更好地估计停机成本,并了解此类事故对业务运营的影响。

SRE 如何使基础架构受益

在快节奏的环境中,例如企业 IT 基础架构,可能会发生大量事件和事件,网络管理员只能做这么多来管理一切。随着越来越多的企业过渡到面向云的方法,甚至是云原生的方法,对 SRE 的需求迫在眉睫,通过实施 SRE 并自动执行与网络管理相关的单调任务,IT 管理员可以优化其基础架构以提高性能。

以下是在基础架构中采用 SRE 的一些主要好处:

  • 减少停机时间:在基础架构中实施 SRE 有助于最大程度地减少停机时间。SRE 的主要目标是自动执行基础设施管理中繁琐而困难的任务,通过使用集成的开发和 IT 运营方法,IT 管理员可以更好地协同工作,尽可能减少停机时间。
  • 增强的最终用户体验:采用 SRE 可帮助 IT 管理员增强其最终用户体验。任何新的问题修复或产品更新都可以使用 SRE 立即推出,而不是传统的开发和运营模型,后者可能需要一些时间才能实施。
  • 不易出现人为错误:企业数据中心中大约 70% 的网络中断是由人为错误引起的。通过在基础架构中采用 SRE,组织可以自动执行其繁琐的任务,从而减少手动干预并节省其他关键任务的时间。
  • 改进了缩放:基础设施上的负载通常是动态的,并受消费者需求的影响。这就需要高度敏捷、可靠且可以随时扩展的基础架构。在 SRE 的帮助下,组织可以轻松扩展其基础架构,因为过渡是以快节奏但以安全为导向的方式进行的。
  • 全面了解基础架构:SRE 开发背后的软件工程技术不仅可以帮助管理员监控基础架构的预定义指标,还可以帮助管理员观察网络,留意潜在问题,并找到问题的根本原因,这为组织提供了对其基础架构的更高可见性。
  • 优化业务运营成本:通过自动化所有单调的操作流程,SRE 可帮助组织降低间接成本。此外,SRE 还有助于基础架构保持符合服务级别协议 (SLA),从而进一步降低业务成本。

站点可靠性工程 (SRE)_基础架构

SRE 如何帮助组织遵守 SLA

SLA 是服务提供商必须满足的一组条件(通常是特定时间段内的服务质量),未能满足既定要求可能会导致处罚和负面品牌声誉,在尝试实现业务目标时,这可能被证明是一个主要障碍,通过将 SRE 部署到基础架构,管理员可以全面了解网络,跟踪关键指标,并确保基础架构符合 SLA。

以下是与 SLA 关联的一些关键指标:

  • 服务级别目标 (SLO):SLO 是服务提供商承诺根据 SLA 为其客户提供的服务质量。通过定义 SLO,服务提供商可以量化他们有义务提供的服务质量。这有助于他们决定是使基础结构更可靠并将更新保持在最低限度,还是通过部署频繁更新来保持与需求保持一致,从而拥有快节奏的基础结构。使用 SRE,组织可以根据其 SLA 中设置的 SLO 优化其基础结构。
  • 服务级别指标 (SLI):SLI 是基础架构的可用性指标。SLI 始终经过优化以满足合同规定的 SLO。如果 SLI 低于 SLO,则可能导致违反 SLA。通过部署 SRE,组织可以增强对其基础架构的控制,以帮助他们实现较长的正常运行时间,最终帮助 SLI 满足设定的 SLO。
  • 错误预算:错误预算是客户端在恢复服务之前可以忍受的最大停机时间。通过在 SLA 中指定服务质量,组织可以更好地评估其基础结构的未来目标。借助 SRE,组织可以充分了解其基础架构,设置适当的错误预算,并决定基础架构必须提供的可靠性量,同时将其扩展到最大以提高性能。

IT 基础架构监控工具

OpManager Plus是一个全面的IT运营管理工具包,可帮助管理员监控,观察和管理整个基础架构。使用此工具,管理员可以:

  • 有效监控基础架构:通过持续跟踪网络的指定指标来监控整个基础架构,从而确保正常运行时间。例如自适应阈值,预测性能趋势和预测报告。
  • 监控网络流量和带宽使用情况:提高对基础架构流量和带宽使用模式的可见性,并对其进行优化以获得更好的性能。使用网络预测和网络取证对基础设施管理采取积极主动的立场。
  • 获得端到端基础架构可见性:除了监控和管理您的基础架构外,还必须拥有深入的可见性,而不仅仅是设备。通过鸟瞰基础架构,提前防范恶意设备检测和 IP 冲突等麻烦,甚至要考虑电线、电缆和接口等微观元素。
  • 管理防火墙和 VPN 以保持安全合规性:通过获取有关基础架构潜在安全漏洞的全面报告,自动执行合规性审核并增强基础架构安全性,领先一步,防范基础架构的安全漏洞。
  • 管理基础架构中的配置更改:制定标准操作程序 (SOP),并安排自动设备配置备份。监控基础架构是否存在任何配置违规,并通过应用适当的反措施立即纠正它们,始终遵守行业标准和政府框架。
  • 监控和增强最终用户体验:全面了解业务关键型应用程序的性能和最终用户体验,识别并根除任何潜在的瓶颈,方便地过渡到更面向云的基础架构,以跟上竞争对手的步伐并实现业务目标,同时不影响所提供的最终用户体验的质量。

OpManager Plus是一个集成的网络性能管理解决方案,它免去了对多种监控工具的需求,为管理员提供整个网络的更高的可见性。

标签:可靠性,SRE,站点,最终用户,基础架构,监控,管理员,SLO
From: https://blog.51cto.com/u_15668869/6947712

相关文章

  • 在Windows实例上无法连接搭建在Linux实例上的VSFTP站点,如何处理?
    本文介绍在Windows实例上,无法连接搭建在Linux实例上VSFTP(VerySecureFTP)服务问题的问题原因和解决方案。问题描述在Windows操作系统资源管理器的文件夹路径中,通过输入ftp://FTP站点所在的ECS实例公网IP地址:21方式,访问搭建在Linux实例上的VSFTP服务,出现无法连接或无法登录FTP......
  • 如何做好备品备件管理,提高设备可靠性?
    备品备件管理是保证设备可靠性的重要措施之一,其目的是通过合理的备品备件储备和有效的管理操作,保障设备正常运行期间随时能够进行修理和更换,从而减少停机时间,提高设备可靠性和生产效率。好的备品备件管理能够大大提高设备的可靠性,减少设备维修成本和停机时间。因此,在备品备件管理上......
  • Lazada各大跨境站点,lazada商品详情,关键词搜索 API 返回值说明
    lazada.item_get公共参数请求地址:o0b.cn/anzexi名称类型必须描述keyString是调用key(必须以GET方式拼接在URL中)secretString是调用密钥api_nameString是API接口名称(包括在请求地址中)[item_search,item_get,item_search_shop等]cacheString否[yes,no]默认yes,将调用缓存的数据,速度比......
  • web渗透测试(7):跨站点脚本(XSS)
    跨站点脚本源于信息发送给应用程序用户时缺乏编码。这可以用来注入任意的HTML和JavaScript;结果是该有效载荷在合法用户的网络浏览器中运行。与其他攻击相反,XSS漏洞针对应用程序的用户,而不是直接针对服务器。 一些漏洞利用的例子包括:注入假登录表单;检索合法用户的Cookie;......
  • 测站点、后视点
    测站点是指在测量工作中,用于放置测量仪器、观测目标或进行测量的地点。测站点通常具有固定的位置和已知的坐标,可以作为测量的参考点。后视点是指在测量工作中,测量仪器放置在某个测站点上进行观测后,所看到的前一个测站点的位置。后视点通常用于记录前一个测站点的坐标,以便后续的......
  • Vue3中使用TypeScript封装axios遇到的问题(AxiosRequestConfig)
    如果您有更好的解决方法,欢迎评论区评论。版本"dependencies":{"axios":"^1.0.0","vant":"^4.6.3","vue":"^3.3.4","vue-router":"^4.2.4","vuex":&quo......
  • python批量计算多站点多年标准化降水指数SPI
    前面提过如何计算单站点多年的标准化降水指数SPI,但是在现实中不仅只计算一个站点的标准化降水指数,有时要计算多个站点的。原始数据是11个站点1961年至2022年每个月的降水值: 编程思路是:1、先需要进行站点分类:   此处的难点在于需要写个for循环,根据站点名称遍历数据 ......
  • python 站点克里金插值(kriging)
    Python站点克里金插值(Kriging)在地理信息系统(GIS)和地质领域中,站点克里金插值(Kriging)是一种常用的空间插值方法。它利用观测点上的数据,通过对空间自相关性的建模,估计未观测位置上的数值。Python提供了一些库和工具,使得实施站点克里金插值变得简单和高效。本文将介绍Python中的站点克......
  • 【遇到一个神奇的问题】暂未想到原因,http.Post 传入 nil参数正确,但是传输值为 nil 的
    出错的代码如下:funcgetEab(ctxcontext.Context,credentialsJSONstring,old*externalAccountKeyResp)(*externalAccountKeyResp,error){//inithttpclient// varpostData*bytes.Reader=nil ifold!=nil{ buf,_:=json.Marshal(old) postData......
  • Python散点显示站点名称
    Python散点显示站点名称在数据可视化的过程中,散点图是一种常用的图表类型。它可以帮助我们在二维坐标系中展示两个变量之间的关系,例如变量之间的相关性、分布情况等。而有时候,在散点图中同时标注各个数据点的名称,可以更直观地展示数据。本文将介绍如何使用Python在散点图中显示站......