如何使用可用性管理计算基础设施的可用性？

时间：2024-01-03 18:33:54浏览次数：40

标签：服务基础设施主机可用性拨测 SLO 计算

如何使用可用性管理计算基础设施的可用性？_IP

如何使用可用性管理计算基础设施的可用性？_基础设施_02

「全链路监控」

服务水平目标（SLO）指定了服务可靠性的目标水平。由于SLO是做出以数据为依据的可靠性决策的关键，因此它们是SRE实践的核心。

SLO是可靠性决策的关键因素，它的存在价值是：及时报警，发现影响SLI指标的异常。并且，产生的SLO告警是SRE和研发共同关注的告警信息。它的根本目标是持续性提高产品质量，缩短故障处理时长，保证平台的可靠性。

因此，实践SRE工程的第一步是计算出正确的可用性是多少，以此定量出实际的服务可靠性水平离SLO到底有多远。

我们期望能看到每个业务线，包括基础设施的周可用性、月可用性和年可用性，并且和年度目标的差距有多少。比如：

如何使用可用性管理计算基础设施的可用性？_套接字_03

不过，在优维监控系统中，可用性管理是以服务为单位作为可用性衡量的目标的。它会将某个特定的拨测任务作为可用性考核的基准，去计算该拨测任务下所有资源对象的可用性(最常用就是向某个接口发送HTTP请求，或者向某个端口发送ping请求)，汇聚后作为服务的可用性。

这对于业务级别的可用性管理而言非常容易理解。毕竟服务是业务系统的构成单位。而对于基础设施级别的可用性衡量则可能不是那么直接，要将基础设施纳入到可用性考核当中，必须建立起基础设施和服务的关系。

「实践」

我们在以下的实践中展示了如何将基础设施构成以"服务"的形式记录在CMDB，并以服务为视角去管理和监控基础设施，以达到将基础设施服务纳入到可用性管理当中。

「服务分类」

我们将基础设施按照服务场景的不同，划分为如下几种类型：

如何使用可用性管理计算基础设施的可用性？_套接字_04

表格中的服务，是根据基础设施类型抽象出来的服务名，我们可认为该服务代表着某一类基础设施的服务能力。

而后，我们就可以添加CMDB数据，我们以主机服务为例：

如何使用可用性管理计算基础设施的可用性？_基础设施_05

注意：此处的服务都是集群服务，因为这个服务是抽象出来的统一体，它代表着主机的总体服务能力。而主机的实际服务能力则是由各个子服务，也就是具体的主机构成的。

因此，我们需要建立集群服务和子服务的关系：

如何使用可用性管理计算基础设施的可用性？_基础设施_06

其中IP和端口非常关键，我们通常选定一组合适的套接字作为衡量主机服务是否可用的标识。在实际配置当中，我们会针对该套接字发送ping请求。

值得注意的是，可用性管理是以应用系统为统计对象，因此需要建立服务和应用系统的关系。我们需要手动建立如下关系：

应用系统 -- 应用 -- 服务

如何使用可用性管理计算基础设施的可用性？_基础设施_07

「拨测任务配置」

接下来就可以建立拨测任务，我们选中建立好的集群服务，并设定拨测任务的参数，如下所示：

如何使用可用性管理计算基础设施的可用性？_基础设施_08

保存即可。

「纳入可用性管理」

最后，我们如同将纳入普通服务一样，将基础设施应用系统加入到可用性计算当中，并选择考核的服务，设置考核的目标：

如何使用可用性管理计算基础设施的可用性？_IP_09

标签：服务,基础设施,主机,可用性,拨测,SLO,计算
From： https://blog.51cto.com/u_15605878/9087486

AI边缘计算智能分析网关V4如何配置周界入侵检测算法
旭帆科技的智能分析网关V4内含近40种智能分析算法，包括人体、车辆、消防、环境卫生、异常检测等等，在消防安全、生产安全、行为检测等场景应用十分广泛，如常见的智慧工地、智慧校园、智慧景区、智慧城管等等，还支持抓拍、记录、告警、平台级联等功能。算法稳定，识别高效，感兴趣的用户可以......
fugue 分布式计算通用接口
fugue提供了通用方便分布式计算的接口，可以高效的访问大数据项目，提供了python，pandas，sql等模式如下图从上图可以看出fugue提供了一个语义层，我们的计算任务可以运行在ray，dask，spark，以及duckdb中参考架构可以看出fugue提供了不少方便的能力，比如sql，机器学习，以及流处理说明对于搞机器......
VMware vRealize Suite 8.3 发布 - 多云环境的云计算管理解决方案
概述VMwarevRealizeSuite是一种多云环境的云计算管理解决方案，为IT组织提供了一个基于DevOps和ML原则的基础架构自动化、一致运维和监管的现代平台。vRealizeSuite如何帮助管理多云环境？应用运维使开发人员能够实时地快速发布基于微服务、分布极广的云计算应用，对其执行故......
VMware vRealize Suite 8.4 发布 - 多云环境的云计算管理解决方案
VMwarevRealizeSuite8.4.0,ReleaseDate:2021-04-15概述VMwarevRealizeSuite是一种多云环境的云计算管理解决方案，为IT组织提供了一个基于DevOps和ML原则的基础架构自动化、一致运维和监管的现代平台。vRealizeSuite如何帮助管理多云环境？应用运维使开发人员能够实时......
openstack——云计算、大数据、人工智能（15）
一、互联网行业及云计算在互联网时代，技术是推动社会发展的驱动，云计算则是一个包罗万象的技术栈集合，通过网络提供IAAS、PAAS、SAAS等资源，涵盖从数据中心底层的硬件设置到最上层客户的应用。给我们工作生活提供服务！1、互联网大事记1936年英国数学家A.M.Turing发明图灵机，为现代......
【计算机网络子网划分指南】
(文章目录)什么是子网划分？子网划分是将一个大型网络划分为若干个更小的子网络的过程。通过将网络划分为子网，管理员可以更好地控制流量、隔离故障、提高网络效率，并增强网络的安全性。子网划分的好处1.提高网络性能子网划分可以减少广播域的大小，从而减少网络中的广播流量。有助......
直方图均衡的计算
直方图均衡的计算一幅8灰度级图像具有如下所示的直方图，求直方图均衡后的灰度级和对应概率，并画出均衡后的直方图的示意图。（图中的8个不同灰度级对应的归一化直方图为[0.170.250.210.160.070.080.040.02]）当然，让我们通过数学计算来完成直方图均衡化的过程。直方图均衡化是一个......
Python时间复杂度计算题答案
评论题目链接答案时间复杂度：O(n)。分析：这段代码遍历了n次，所以时间复杂度是线性的，即O(n)。时间复杂度：O(n^2)。分析：两个嵌套的循环，每个循环都运行n次，因此时间复杂度是二次的，即O(n^2)。时间复杂度：O(logn)。分析：每次循环i都翻倍，因此循环的次数是log2(n)。时间复杂度：O(n*m)。分析：......
【计算机组成原理】你知道计算的基础结构有哪些吗？
常见的个人计算机包括哪些组成部分？冯诺依曼体系结构包括哪些组成部分？个人计算机当我们自己组装一台计算机时，需要购买下面的这些东西：CPU、内存、主板、显卡和硬盘。下面简单的说说各部分。CPU，我们经常说是处理器，这个实际的全称是中央处理器（CentralProcessingUnit）。内存（Memory），计算......
【计算机组成原理】从CPU执行时间聊如何做性能优化
衡量性能的指标有什么？针对CPU执行时间，我们可以从哪些部分优化？衡量性能的指标：响应时间。执行一个程序需要花费多少时间。带宽（也称为吞吐率）。在一定时间内，能处理多少事情。这里我们主要讨论的是响应时间。一般情况下，我们把性能定义为时间的倒数，性能=1/响应时间，这时候我们就要用时间......

如何使用可用性管理计算基础设施的可用性？

相关文章

赞助商

阅读排行