首页 > 其他分享 >SRE Google运维解密 第三章

SRE Google运维解密 第三章

时间:2023-12-17 09:33:05浏览次数:28  
标签:风险 Google 服务 运维 SRE 可用性 系统 成本

第二部分 指导思想

本部分将描述 SRE 日常工作背后的指导思想——工作模式、行为方式,以及平时运维工作中关注的重点等。

第三章 拥抱风险

管理风险

在构建系统的过程中,可靠性的进一步提升成本并不是线性增加的。高昂的成本主要存在于以下两个维度:

在 SRE 团队中,我们管理服务的可靠性很大程度上是通过管理风险来进行的。我们是将风险作为一个连续体来认知的。对于提高 Google 系统的可靠性和对服务故障的耐受水平,我们要给予同等关注。这样我们可以进行成本 / 收益分析。我们的目标是:明确地将运维风险与业务风险对应起来。我们会努力提高一项服务的可靠性,但不会超过该服务需要的可靠性。

度量服务的风险

谷歌标准做法是通过一个客观的指标来体现一个待优化的系统属性,通过设立这样一个目标,我们可客观地评价目前的系统表现以及追踪一段时间内的改进和退步。为了使这个服务风险在运行得各种类型的系统中易于处理,并且保持一致,我们选择主要关注计划外停机这个指标。

  • 99.9%(三个9)
  • 99.99%(四个9 系统最多在一年中停机 52.56分钟)
  • 99.999%(五个9)

计算公式:可用性 = 系统正常运行时间 / (系统正常运行时间 + 停机时间)

然而, 在谷歌内部,基于时间的可用性通常是无意义的。我们需要在着眼全球范围内的分布式服务。因此,通过 请求成功率 来定义服务可用性。

可用性 = 成功请求数 / 总的请求数

例如:一个每天可用性目标为 99.99% 的系统,一天要接受 2.5M 个请求。它每天出现少于250个错误可达到预计的可用性目标。

服务的风险容忍度

辨别消费者服务的风险容忍度

评价服务风险容忍度时,有许多需要考虑的因素。如下所示:

  • 需要的可用性水平是什么?
  • 不同类型的失败对服务有不同的影响吗?
  • 我们如何使用服务成本来帮助在风险曲线上定位这个服务?
  • 有哪些其他重要的服务指标需要考虑?

可用性目标

对于某个谷歌服务而言,服务的可用性目标通常取决于它提供的功能,以及这项服务在市场上是如何定位的。下面列出了要考虑的一些问题:

  • 用户期望的服务水平是什么?
  • 这项服务是否直接关系到收入(我们的或客户的)?
  • 这是一个有偿服务,还是免费服务?
  • 如果市场上有竞争对手,那些竞争对手的服务水平如何?
  • 这项服务是针对消费者还是企业的?

故障的类型

偶然的/正常的/可以接受的

成本

在为每一项服务确定可用性目标时,可以考虑如下的问题:

  • 构建和运维可用性再多一个 "9" 的系统时,收益会增加多少?
  • 额外的收入是否能够抵消为了达到这一可靠性水平所付出的成本?

可用性目标:99.9% -> 99.99%

增加的可用性:0.09%

服务收入:100万美元

改进可用性后的价值:100万没有 * 0.0009 = 900 美元

在这种情况下,如果可用性提高一个 "9" 的成本不到900美元,这就是合理的投资。但是,如果成本超过 900 美元,那么成本将超过预计增加的收入。

基础设施

基础设施服务的运维关键是明确划分服务水平,从而使客户在构建系统时能够进行正确的风险和成本权衡。通过明确划定的服务水平,基础设施提供者其实就是将服务的成本的一部分转移给用户。以这种方式暴露成本可以促使客户选择既能够满足他们的需求又能够压缩成本的服务水平。

标签:风险,Google,服务,运维,SRE,可用性,系统,成本
From: https://www.cnblogs.com/lhxBlogs/p/17908777.html

相关文章

  • python 使用 Google Gemini API
    python使用GoogleGeminiAPI注册APIKEY:GoogleAIStudio[免费]importbase64importrequestsimportjsonAPI_KEY='yourapikey'img_path='./scones.jpg'#设置模型参数和过滤规则https://ai.google.dev/api/rest/v1beta/SafetySetting?hl=zh-cn#H......
  • 云平台运维过程问题,以及解决方法
    1.裸金属替换下发,后bond1网络不通或者丢包。:排查用到的命令:ifdown  ifconfigeth0down/up ip-bra  demsg|grepDMI查看服务器厂家 、cat/etc/os-release查看操作系统版本#用带外看服务器的状态ipmitool-Ilanplus-H22.234.11.158-Uadmin-PPCfwq@psbc202......
  • openGauss学习笔记-161 openGauss 数据库运维-备份与恢复-导出数据-使用gs_dump和gs_d
    openGauss学习笔记-161openGauss数据库运维-备份与恢复-导出数据-使用gs_dump和gs_dumpall命令导出数据-导出所有数据库-无权限角色导出数据161.1无权限角色导出数据gs_dump和gs_dumpall通过-U指定执行导出的用户帐户。如果当前使用的帐户不具备导出所要求的权限时,会无法导出......
  • openGauss学习笔记-160 openGauss 数据库运维-备份与恢复-导出数据-使用gs_dump和gs_d
    openGauss学习笔记-160openGauss数据库运维-备份与恢复-导出数据-使用gs_dump和gs_dumpall命令导出数据-导出所有数据库-导出全局对象160.1导出全局对象openGauss支持使用gs_dumpall工具导出所有数据库公共的全局对象,包含数据库用户和组、表空间及属性(例如:适用于数据库整体的......
  • 【漫话运维】信创化浪潮下,如何实现运维丝滑过渡
    点击立即体验WeOps简便易用的平台,全面的监管控功能,从工具、人员到流程,全面应对挑战,让信创化变得更加便捷和可控。嘉为蓝鲸WeOps一体化平台嘉为蓝鲸WeOps一体化运维平台,是为企业的IT运维部门提供覆盖资源管理、监控告警、健康扫描、运维工具、知识库、IT服务台等多项功能为一体的运......
  • 重磅:谷歌发布最强大AI模型【Google Gemini】
    https://www.cnblogs.com/eryueren/p/17901497.html一、前言北京时间2023年12月13日Google发布了最新的GeminiPro模型,并且提供了API访问。一个更好的消息是:GeminiPro可免费使用。赶紧体验起来吧~二、关于GoogleGemini是一款由GoogleAI开发的大型语言模型聊天机......
  • Java云架构、云服务、云运维的医院信息管理系统源码(云HIS)
    医院信息系统(HIS)经历了从手工到单机再到局域网的两个阶段,随着云计算、大数据新技术迅猛发展,基于云计算的医院信息系统将逐步取代传统局域网HIS,以适应人们对医疗卫生服务越来越高的要求。利用云计算、大数据等现代信息技术研发的医疗卫生信息平台(HIP)实现了医院信息化从局域网向互......
  • google gemini api使用
    title:googlegeminiapi使用banner_img:https://cdn.studyinglover.com/pic/2023/12/334c0c129076533308cbc7e03f8c55be.pngdate:2023-12-1423:15:00tags:-googlegeminigooglegeminiapi使用google最近发布了geminiapi,我之前在我的博客介绍了如何申请,这篇文章来......
  • google gemini api申请
    title:googlegeminiapi申请banner_img:https://cdn.studyinglover.com/pic/2023/12/334c0c129076533308cbc7e03f8c55be.pngdate:2023-12-1422:40:00tags:-踩坑googlegeminiapi申请首先登陆https://ai.google.dev/pricing往下滑,看一看到免费选项,每分钟60词请求......
  • MySQL运维5-Mycat配置
    一、schema.xml1.1简介schema.xml作为Mycat中最重要的配置文件之一,涵盖了Mycat的逻辑库、逻辑表、分片规则、分片节点即数据源的配置。主要包括一下三组标签schema标签datanode标签datahost标签1.2schema标签用于定于Mycat实例中的逻辑库,......