slo
  • 2024-10-15IT服务管理三重奏:SLA、SLO、SLI
    ITSM一直在为用户寻求更好的用户体验,传统的框架虽然有价值,但往往无法满足用户和企业的数字需求,因为也缺乏评估方法及服务质量。SRE和ITSM相交的一个核心原则是SLA的概念,虽然SLA长期以来一直是ITSM的一部分,但SRE引入了服务级别目标(SLO)和服务级别指标(SLI)。 SLA、SLO、SLI会优
  • 2024-08-25SLA
    SRE确保系统平台的可靠性、可用性以及可扩展性自动化运维,脚本语言能力,使用脚本来提高运维操作效率系统组件性能参数调优故障快速能力,快速响应能力监控告警资源管理分配及回收、成本评估及降本工作SLA&SLOSLA(服务级别协议)和SLO(服务级别目标)是两个与服务质量管理相
  • 2024-05-06五一假期学习总结:从DevOps到SRE
    大家好,我是Edison。五一假期,没出远门,带娃露营玩水玩沙骑平衡车,累的不亦乐乎。同时,也刷了一门极客时间的课程《SRE实战总结》,给我带来了一些新的认知,我将这些认知整理了以下,特此总结分享与你,强烈建议已经实践了DevOps的童鞋了解一下SRE。什么是SRE?SRE全称SiteReliabilityEngi
  • 2024-04-29可观测性
    一、概念2023年的《可观测性技术发展研究报告》指出,可观测性指的是通过系统的外部输出来度量系统内部运行状态的能力。监控是可观测性的关键核心组成部分,两者是相互依赖的不同概念,监控是为提高系统的可观测性而执行的操作。业界将可观测性能力划分为5个层级,其中告警(Al
  • 2024-03-14Observability:使用 Elastic AI Assistant 和 APM 分析 OpenTelemetry 应用程序
    作者:来自Elastic BahubaliShettiOpenTelemetry正在迅速成为云原生计算基金会(CNCF)内最广泛的项目,拥有与Kubernetes一样多的提交,并获得了客户的广泛支持。许多公司正在采用OpenTelemetry并将其集成到他们的应用程序中。Elastic®提供了有关为应用程序实施OpenT
  • 2024-01-23Prometheus最佳实践 Summary和Histogram
    本文分享自华为云社区《Prometheus最佳实践Summary和Histogram》,作者:张俭。前言Histogram和Summary都是复杂的指标,不仅仅是因为直方图和summary包含了多个时间序列,而且它们还较难使用正确。观测中的Count和SumHisto和summary都是采样观测,典型的采样维度有 响应大小 和 
  • 2024-01-03如何使用可用性管理计算基础设施的可用性?
    「全链路监控」服务水平目标(SLO)指定了服务可靠性的目标水平。由于SLO是做出以数据为依据的可靠性决策的关键,因此它们是SRE实践的核心。SLO是可靠性决策的关键因素,它的存在价值是:及时报警,发现影响SLI指标的异常。并且,产生的SLO告警是SRE和研发共同关注的告警信息。它的根本目
  • 2023-12-24SRE Google运维解密 4-9章
    第四章服务质量目标如果不详细了解服务中各种行为的重要程度,并且不去度量这些行为的正确性的话,就无法正确运维这个系统,更不要说可靠低运维了。那么,不管是对外服务,还是内部API,我们都需要制定一个针对用户的服务质量目标,并且努力去达到这个质量目标。服务质量指标(SLI)服务质量目
  • 2023-11-08传统的运维将消失?体系化的 SRE 可靠性与连续性保障,了解一下?
    什么是SRE?在刚刚接触SRE时,很多人认为就是Google的一个具备全栈能力的岗位,可以独立解决很多问题的人。而在深入探究之后发现,SRE确实可以解决很多问题,但问题实在太多了,一个岗位或一个人是很难高效快速的解决的。比如怎么做容量评估、怎么进行故障演练、怎么能做到服务限流、怎么做到
  • 2023-08-03站点可靠性工程 (SRE)
    随着世界各地的组织努力开发安全、可靠、可扩展且可持续的IT基础架构,对高效基础架构监控和管理的需求日益增长,企业正在用不可扩展的遗留架构换取现代解决方案,在尖端技术的推动下,这些使基础设施管理过程更加顺畅和轻松,其中一项技术是站点可靠性工程(SRE),它有助于扩展基础结构管理流
  • 2023-05-262 分钟,搞懂 SLO 最佳实践
    本文介绍SLO,曾经我发过一个短时间讲解我们做监控最应该监控的是什么,短视频讲了上篇,这篇算是下篇。当时的短视频可以在这里查阅:SLI、SLO、SLA先拎清楚几个概念:SLI:服务质量指标,比如99分位的响应时间、99分位的响应时间、错误率等SLO:服务质量目标,所谓的几个9的目标,比如99分位
  • 2023-05-25SRE心里话:要求100%服务可用性就是老板的无知
    《SREGoogle运维解密》第3章讲了拥抱风险,一些关键的观点,在这里与大家分享,融入了我自己的一些理解,希望对你有些帮助。服务可用性必须100%?其实完全没必要一个服务客户的产品,不需要追求极端的可用性,因为实在是没有必要。比如一个论坛服务,用户使用智能手机来访问,手机本身有可能故
  • 2023-05-25SRE心里话:要求100%服务可用性就是老板的无知
    《SREGoogle运维解密》第3章讲了拥抱风险,一些关键的观点,在这里与大家分享,融入了我自己的一些理解,希望对你有些帮助。服务可用性必须100%?其实完全没必要一个服务客户的产品,不需要追求极端的可用性,因为实在是没有必要。比如一个论坛服务,用户使用智能手机来访问,手机本身有可能故障,手
  • 2023-05-17SRE Google 运维解密读书笔记一:SRE 方法论概述
    SREGoogle运维解密,是SRE领域的启蒙之作,讲述了Google的SRE实践,SRE就是从Google流传出来的。本文是读书笔记,第一篇,概述SRE方法论。帮大家把书读薄,当然,也加入了一些我的个人理解,希望对你有帮助。为何需要SRE传统的sysadmin的方式,偏手工运维,机器越多所需运维工程
  • 2023-04-23快速识别 SLI 指标的方法:VALET
    SLI,ServiceLevelIndicator,服务等级指标,其实就是我们选择哪些指标来衡量我们的稳定性。而SLO,ServiceLevelObjective,服务等级目标,指的就是我们设定的稳定性目标,比如“几个9”这样的目标。VALET是5个单词的首字母,分别是Volume、Availability、Latency、Error和Ticket。这
  • 2023-03-01FPGA_8_21
    XtrexxRGB-sx FPGA视频闪光灯 抓拍GPIO m34_slo_... m36_slo_... Altracapture闪光灯(同步)抓拍 sensor Gl-Busregistertranslate talkxilinxfpgasw&hw
  • 2022-12-30如何配置 SLO
    前言无论是对外提供IaaSPaaSSaaS的云公司,还是提供信息技术服务的乙方公司,亦或是金融制造等各行各业的数据中心、运维部门,我们的一个非常重要的合同承诺或考核评估指
  • 2022-12-16SLI、SLO、SLA
    SLA=ServiceLevelAgreement=服务质量/水平协议(对外承诺)SLO=ServiceLevelObjective=服务质量/水平目标(对内产品目标)SLI =ServiceLevelIndicator=服务质
  • 2022-11-22干货分享 | B站SLO由失败转成功,B站SRE做对了什么?
    最近几年,GoogleSRE在国内非常流行。GoogleSRE方法论中提出了SLO是SRE实践的核心,SLO为服务可靠性设定了一个目标级别,它是量化线上质量的关键因素,它是用来回答一个服务到底
  • 2022-11-13七步成诗 - 快速创建有效 SLO
    前言之前的文章-如何配置SLO-东风微鸣技术博客(ewhisper.cn)介绍了一些常用的各类SLO,但是在实际制定SLO过程中,并不一定适合实际业务需求。本次介绍SLO的最佳
  • 2022-11-02《SRE实战手册》学习笔记之切入SRE
    转载:https://www.cnblogs.com/imyalost/p/15891000.html这篇文章是《SRE实战手册》学习笔记的第二篇,理解SRE之后,就要找到切入点来落地。 理解SRE中的指标和目标SRE强
  • 2022-10-30【精彩内容分享】SoCC 2022 | 大规模云系统自动化容量评估的探索与落地 – DeepScaling
    以下内容来自公众号【蚂蚁技术风险TRaaS】1.前言在线服务提供商比如Google、Facebook、蚂蚁、腾讯等为了保证自身服务的SLO,在进行资源配置时通常会采取“保守”策略:即配置相
  • 2022-09-20SRE 之旅——开始 SLO 实施(第 2 部分——SLO 和错误预算)
    SRE之旅——开始SLO实施(第2部分——SLO和错误预算)https://successive.cloud/sre-fundamentals-sla-slo-sli/先决条件:SRE之旅——开始SLO实施(第1部分——