首页 > 其他分享 >如何使用可用性管理计算基础设施的可用性?

如何使用可用性管理计算基础设施的可用性?

时间:2024-01-03 18:33:54浏览次数:28  
标签:服务 基础设施 主机 可用性 拨测 SLO 计算

如何使用可用性管理计算基础设施的可用性?_IP

如何使用可用性管理计算基础设施的可用性?_基础设施_02

「 全 链 路 监 控 」

服务水平目标(SLO)指定了服务可靠性的目标水平。由于SLO是做出以数据为依据的可靠性决策的关键,因此它们是SRE实践的核心。

SLO是可靠性决策的关键因素,它的存在价值是:及时报警,发现影响SLI指标的异常。并且,产生的SLO告警是SRE和研发共同关注的告警信息。它的根本目标是持续性提高产品质量,缩短故障处理时长,保证平台的可靠性。

因此,实践SRE工程的第一步是计算出正确的可用性是多少,以此定量出实际的服务可靠性水平离SLO到底有多远。

我们期望能看到每个业务线,包括基础设施的周可用性、月可用性和年可用性,并且和年度目标的差距有多少。比如:

如何使用可用性管理计算基础设施的可用性?_套接字_03

不过,在优维监控系统中,可用性管理是以服务为单位作为可用性衡量的目标的。它会将某个特定的拨测任务作为可用性考核的基准,去计算该拨测任务下所有资源对象的可用性(最常用就是向某个接口发送HTTP请求,或者向某个端口发送ping请求),汇聚后作为服务的可用性。

这对于业务级别的可用性管理而言非常容易理解。毕竟服务是业务系统的构成单位。而对于基础设施级别的可用性衡量则可能不是那么直接,要将基础设施纳入到可用性考核当中,必须建立起基础设施和服务的关系。

「 实 践 」

我们在以下的实践中展示了如何将基础设施构成以"服务"的形式记录在CMDB,并以服务为视角去管理和监控基础设施,以达到将基础设施服务纳入到可用性管理当中。

「 服 务 分 类 」

我们将基础设施按照服务场景的不同,划分为如下几种类型:

如何使用可用性管理计算基础设施的可用性?_套接字_04

表格中的服务,是根据基础设施类型抽象出来的服务名,我们可认为该服务代表着某一类基础设施的服务能力。

而后,我们就可以添加CMDB数据,我们以主机服务为例:

如何使用可用性管理计算基础设施的可用性?_基础设施_05

注意:此处的服务都是集群服务,因为这个服务是抽象出来的统一体,它代表着主机的总体服务能力。而主机的实际服务能力则是由各个子服务,也就是具体的主机构成的。

因此,我们需要建立集群服务和子服务的关系:

如何使用可用性管理计算基础设施的可用性?_基础设施_06

其中IP和端口非常关键,我们通常选定一组合适的套接字作为衡量主机服务是否可用的标识。在实际配置当中,我们会针对该套接字发送ping请求。

值得注意的是,可用性管理是以应用系统为统计对象,因此需要建立服务和应用系统的关系。我们需要手动建立如下关系:

应用系统 -- 应用 -- 服务

如何使用可用性管理计算基础设施的可用性?_基础设施_07

「 拨 测 任 务 配 置 」

接下来就可以建立拨测任务,我们选中建立好的集群服务,并设定拨测任务的参数,如下所示:

如何使用可用性管理计算基础设施的可用性?_基础设施_08

保存即可。

「 纳 入 可 用 性 管 理 」

最后,我们如同将纳入普通服务一样,将基础设施应用系统加入到可用性计算当中,并选择考核的服务,设置考核的目标:

如何使用可用性管理计算基础设施的可用性?_IP_09

标签:服务,基础设施,主机,可用性,拨测,SLO,计算
From: https://blog.51cto.com/u_15605878/9087486

相关文章

  • AI边缘计算智能分析网关V4如何配置周界入侵检测算法
    旭帆科技的智能分析网关V4内含近40种智能分析算法,包括人体、车辆、消防、环境卫生、异常检测等等,在消防安全、生产安全、行为检测等场景应用十分广泛,如常见的智慧工地、智慧校园、智慧景区、智慧城管等等,还支持抓拍、记录、告警、平台级联等功能。算法稳定,识别高效,感兴趣的用户可以......
  • fugue 分布式计算通用接口
    fugue提供了通用方便分布式计算的接口,可以高效的访问大数据项目,提供了python,pandas,sql等模式如下图从上图可以看出fugue提供了一个语义层,我们的计算任务可以运行在ray,dask,spark,以及duckdb中参考架构可以看出fugue提供了不少方便的能力,比如sql,机器学习,以及流处理说明对于搞机器......
  • VMware vRealize Suite 8.3 发布 - 多云环境的云计算管理解决方案
    概述VMwarevRealizeSuite是一种多云环境的云计算管理解决方案,为IT组织提供了一个基于DevOps和ML原则的基础架构自动化、一致运维和监管的现代平台。vRealizeSuite如何帮助管理多云环境?应用运维使开发人员能够实时地快速发布基于微服务、分布极广的云计算应用,对其执行故......
  • VMware vRealize Suite 8.4 发布 - 多云环境的云计算管理解决方案
    VMwarevRealizeSuite8.4.0,ReleaseDate:2021-04-15概述VMwarevRealizeSuite是一种多云环境的云计算管理解决方案,为IT组织提供了一个基于DevOps和ML原则的基础架构自动化、一致运维和监管的现代平台。vRealizeSuite如何帮助管理多云环境?应用运维使开发人员能够实时......
  • openstack——云计算、大数据、人工智能(15)
    一、互联网行业及云计算在互联网时代,技术是推动社会发展的驱动,云计算则是一个包罗万象的技术栈集合,通过网络提供IAAS、PAAS、SAAS等资源,涵盖从数据中心底层的硬件设置到最上层客户的应用。给我们工作生活提供服务!1、互联网大事记1936年英国数学家A.M.Turing发明图灵机,为现代......
  • 【计算机网络子网划分指南】
    (文章目录)什么是子网划分?子网划分是将一个大型网络划分为若干个更小的子网络的过程。通过将网络划分为子网,管理员可以更好地控制流量、隔离故障、提高网络效率,并增强网络的安全性。子网划分的好处1.提高网络性能子网划分可以减少广播域的大小,从而减少网络中的广播流量。有助......
  • 直方图均衡的计算
    直方图均衡的计算一幅8灰度级图像具有如下所示的直方图,求直方图均衡后的灰度级和对应概率,并画出均衡后的直方图的示意图。(图中的8个不同灰度级对应的归一化直方图为[0.170.250.210.160.070.080.040.02])当然,让我们通过数学计算来完成直方图均衡化的过程。直方图均衡化是一个......
  • Python时间复杂度计算题答案
    评论题目链接答案时间复杂度:O(n)。分析:这段代码遍历了n次,所以时间复杂度是线性的,即O(n)。时间复杂度:O(n^2)。分析:两个嵌套的循环,每个循环都运行n次,因此时间复杂度是二次的,即O(n^2)。时间复杂度:O(logn)。分析:每次循环i都翻倍,因此循环的次数是log2(n)。时间复杂度:O(n*m)。分析:......
  • 【计算机组成原理】你知道计算的基础结构有哪些吗?
    常见的个人计算机包括哪些组成部分?冯诺依曼体系结构包括哪些组成部分?个人计算机当我们自己组装一台计算机时,需要购买下面的这些东西:CPU、内存、主板、显卡和硬盘。下面简单的说说各部分。CPU,我们经常说是处理器,这个实际的全称是中央处理器(CentralProcessingUnit)。内存(Memory),计算......
  • 【计算机组成原理】从CPU执行时间聊如何做性能优化
    衡量性能的指标有什么?针对CPU执行时间,我们可以从哪些部分优化?衡量性能的指标:响应时间。执行一个程序需要花费多少时间。带宽(也称为吞吐率)。在一定时间内,能处理多少事情。这里我们主要讨论的是响应时间。一般情况下,我们把性能定义为时间的倒数,性能=1/响应时间,这时候我们就要用时间......