首页 > 其他分享 >阿里云1+X云计算开发与运维实战——云监控初体验

阿里云1+X云计算开发与运维实战——云监控初体验

时间:2023-04-23 14:35:12浏览次数:41  
标签:实战 负载 初体验 运维 报警 点击 实例 ECS 监控

实验概述

本实验会自动创建一台已部署Nginx的ECS实例和一台负载均衡SLB实例。首先,使用阿里云云监控的 云服务监控 服务,配置并查看ECS实例和SLB实例的监控数据。然后,设置ECS实例的报警规则,并验证报警规则生效。之后,使用 站点监控 服务,监控已部署Nginx的站点的状态,并设置站点报警规则,验证报警规则。最后,清理云监控中的监控资源。

阿里云1+X云计算开发与运维实战——云监控初体验_云监控

背景知识

    云监控(CloudMonitor)作为云服务的监控管理入口,能让用户快速了解各产品实例的状态和性能。云监控从站点监控、云服务监控、自定义监控三个方面来为用户提供服务。通过云监控管理控制台,用户可以看到当前服务的监控项数据图表,清晰了解服务运行情况。并通过设置报警规则,管理监控项状态,及时获取异常信息。云监控目前免费限量为用户提供监控服务。

云监控为用户提供了非常丰富的使用场景:

  • 云服务监控:用户购买和使用云监控支持的阿里云服务后,可监控多种阿里云云服务的各项基础指标,比如:ECS的CPU使用率、内存使用率、公网流出流速(带宽)等。确保实例的正常使用,避免因为对资源的过度使用造成用户业务无法正常运转。云监控会根据用户设置的报警规则,在监控数据达到报警阈值时,发送报警信息。用户可以及时获取异常通知,并查询服务异常的原因。

          目前,云服务监控对用户开放的产品包括云服务器ECS、云数据库RDS、负载均衡、云数据库Memcache版、对象存储OSS、CDN、弹性公网IP、云数据库Redis版、消息服务、日志服务等,其它云产品的监控会陆续加入进来。

  • 站点监控:支持提供多种协议的监控设置,可探测您站点的可用性、响应时间、丢包率。让用户全面了解站点的可用性,并在发生异常时,可以及时处理。

          站点监控目前支持8种协议的探测,探测点包括:杭州、青岛、北京,探测频率支持:1分钟、5分钟、15分钟。

  • 自定义监控:补充“云服务监控”的不足,如果云监控服务未能提供您需要的监控项,那么,用户可以创建新的监控项并采集监控数据上报到云监控,云监控会对新的监控项提供“监控图表”展示和“报警”功能。

     本实验主要介绍如何使用云服务监控,以及使用“站点监控”对用户自建的网站进行监控。通过设置报警规则,用户可以及时发现站点的异常情况,并做出及时的处理。

实验目标

完成此实验后,可以掌握的能力有:

1. 使用云监控的管理控制台,监控ECS等阿里云产品

2. 创建报警规则,及时获取阿里云服务或站点的异常状态;

3. 使用站点监控,对网站进行监控。

4. 清理云监控中的监控资源

实验实施

实验资源:

阿里云1+X云计算开发与运维实战——云监控初体验_管理控制_02

2.1 监控阿里云云服务

1.        本章节将介绍如何使用云监控对阿里云上的资源进行基础监控,本实验主要实现对ECS和负载均衡实例的基本监控。首先,在负载均衡实例中创建监听,然后,在ECS实例中安装云监控插件。最后,在云监控中查看ECS,负载均衡的监控数据。

说明:使用云监控对负载均衡实例进行监控时,不需要安装监控插件。但是,负载均衡实例中必须有监听。否则,云监控将无法对负载均衡实例进行监控。

2.登录实验提供的子用户:

阿里云1+X云计算开发与运维实战——云监控初体验_管理控制_03

阿里云1+X云计算开发与运维实战——云监控初体验_管理控制_04

3.进入阿里云管理控制台后,点击阿里云管理控制台的左上角 产品与服务,在弹出的下拉列表中,选择 负载均衡,进入负载均衡管理控制台。

阿里云1+X云计算开发与运维实战——云监控初体验_云监控_05

4.在负载均衡服务管理控制台的 实例管理 中,选择 实验资源 提供的 地域。之后在顶部的搜索栏中,左侧关键字下拉框选择 负载均衡ID,搜索框中填入负载均衡ID 后 点击 搜索。在查询结果中点击右侧的操作栏下的 管理,进入SLB实例的管理界面。

阿里云1+X云计算开发与运维实战——云监控初体验_管理控制_06

5.在负载均衡实例的管理页面,点击 监听配置向导,进入 监听配置 页面。当前负载均衡实例中,无任何监听。点击右侧的 添加监听,创建负载均衡的监听。

阿里云1+X云计算开发与运维实战——云监控初体验_负载均衡_07

6.在 基本配置 页面中,输入如下参数:前端协议 选择 HTTP端口 设为 80后端协议 HTTP的端口也设为 80带宽峰值 为 1M。其余为默认设置。完成后,点击 下一步

阿里云1+X云计算开发与运维实战——云监控初体验_管理控制_08

阿里云1+X云计算开发与运维实战——云监控初体验_负载均衡_09

在后端服务器页面中,选择默认服务器组,点击继续添加,勾选ECS实例,点击下一步。

阿里云1+X云计算开发与运维实战——云监控初体验_管理控制_10

阿里云1+X云计算开发与运维实战——云监控初体验_负载均衡_11

端口为80,权重为100,点击下一步。

阿里云1+X云计算开发与运维实战——云监控初体验_管理控制_12

阿里云1+X云计算开发与运维实战——云监控初体验_负载均衡_13

在 健康检查配置 页面中,关闭 健康检查。完成后,点击 确认

阿里云1+X云计算开发与运维实战——云监控初体验_负载均衡_14

配置审核页面中,检查监听配置无误后,点击提交

阿里云1+X云计算开发与运维实战——云监控初体验_管理控制_15

页面提示监听配置成功,点击 确认。在 监听配置 页面,可以查看到一个状态为 运行中 的监听项。

阿里云1+X云计算开发与运维实战——云监控初体验_管理控制_16

阿里云1+X云计算开发与运维实战——云监控初体验_云监控_17

7. 点击阿里云管理控制台的左上角 产品与服务,在弹出的下拉列表中,依次选择 云计算基础服务---监控与管理---云监控,进入云监控的管理控制台。

阿里云1+X云计算开发与运维实战——云监控初体验_云监控_18

8. 在 云监控 管理控制台的左侧栏中,查看到目前云监控主要提供的三种服务:站点管理,对网站进行监控;云产品监控,对阿里云中的多种产品和服务进行监控,目前云监控可以对 ECSRDS 等云产品进行监控;自定义监控,为用户提供定制化的监控项,用户可以根据自身的需求,自定义监控内容,并实时的上传数据,查看监控信息。

阿里云1+X云计算开发与运维实战——云监控初体验_云监控_19

9. 点击左侧栏 主机监控 。出现云监控服务关联角色,选择取消。页面显示在 实验资源 提供的 地域 中有一台ECS实例。选择此台ECS,然后点击批量安装或升级插件进行插件的安装。

说明:若ECS实例没有安装云监控插件,则无法使用云监控对ECS实例进行监控。

阿里云1+X云计算开发与运维实战——云监控初体验_负载均衡_20

阿里云1+X云计算开发与运维实战——云监控初体验_负载均衡_21

 请等待1-2分钟,点击右上角的 刷新,当ECS实例的 ECS插件状态 变为 运行中,则完成ECS实例的插件安装。用户可以通过云监控管理控制台,查看此台ECS实例的监控数据。点击ECS实例右侧的 监控图表,实时查看更新的监控数据。

阿里云1+X云计算开发与运维实战——云监控初体验_管理控制_22

10. 在监控图表页面中,云监控提供两类ECS的监控数据:ECS实例基础监控 和 操作系统级别监控指标。用户可以根据自己的需求,查看相关的数据,并根据数据分析目前ECS实例的性能,适当调整实例的配置。可以点击具体目标查看监控详情。

说明:若无数据,请稍等1-2分钟后,刷新页面。因为云监控服务需要一定时间获取监控数据。

阿里云1+X云计算开发与运维实战——云监控初体验_云监控_23

在详情中,用户可以自定义图表中显示的时间、查看云监控的其它信息。

阿里云1+X云计算开发与运维实战——云监控初体验_管理控制_24

11.点击左侧栏 云服务监控 的 负载均衡,页面显示当前帐户下仅有一台负载均衡实例。点击负载均衡实例右侧的 监控图表,查看负载均衡实例的监控数据。

阿里云1+X云计算开发与运维实战——云监控初体验_负载均衡_25

阿里云1+X云计算开发与运维实战——云监控初体验_云监控_26

12. 在负载均衡的监控图表页面中,用户可以查看到 流入流量流出流量 等信息。点击 监控图表 中的 流入流量 等监控项目,进入详细的图表页面。

说明:流入流量,从外部访问负载均衡所需要消耗的流量;流出流量,负载均衡访问外部所需要消耗的流量;新建连接数,在统计周期内新建立的连接数的均值。它统计的是客户端连接请求,其中活跃连接数、非活跃连接数统计的也是客户端到负载均衡的连接请求。流入数据包数,负载均衡实例每秒接到的请求数据包数量;流出数据包数,负载均衡每秒发出的数据包数量;活跃连接数,当时所有ESTABLISHED状态的连接,可以理解为并发量,但是不能等同。因为如果用户采用的是长连接的情况,一个连接会同时传输多个文件请求;非活跃连接数,指除established状态的其他所有状态tcp连接数。

阿里云1+X云计算开发与运维实战——云监控初体验_负载均衡_27

2.2 创建ECS监控报警规则

1.  在创建报警任务之前,首先,创建报警联系人。然后,将报警规则中选择报警联系人所在的联系人组,最后,验证在触发警报时,发送报警信息给报警联系人。

阿里云1+X云计算开发与运维实战——云监控初体验_负载均衡_28

2.点击云监控管理控制台左侧的 报警服务-->报警联系人,在报警联系人的页面中,默认当前阿里云账号的注册信息为报警联系人。点击页面右上角的 新建联系人,创建一个新的报警联系人。

阿里云1+X云计算开发与运维实战——云监控初体验_云监控_29

3. 在弹出的对话框中,输入 姓名,如:Connie,并输入 手机号 和 验证码。完成后,点击 确认

注意:此处请填写真实的手机信息,否则,将无法获取验证信息,在本实验的最后一个章节,会介绍如何清理已创建报警联系人。并请进行清理,避免个人信息泄漏。

阿里云1+X云计算开发与运维实战——云监控初体验_云监控_30

Connie(用户自定义姓名)和相应的手机号信息。

阿里云1+X云计算开发与运维实战——云监控初体验_管理控制_31

阿里云1+X云计算开发与运维实战——云监控初体验_管理控制_32

组名 为 EcsOps(自定义),然后点击确认

阿里云1+X云计算开发与运维实战——云监控初体验_负载均衡_33

阿里云1+X云计算开发与运维实战——云监控初体验_云监控_34

4. 点击左侧栏中 主机监控 类别下的 云服务器ECS ,进入ECS监控列表,选择 实验资源 提供的 地域 。点击ECS实例右侧的 报警规则。查看ECS实例的报警配置。     

阿里云1+X云计算开发与运维实战——云监控初体验_负载均衡_35

建报警规则,创建新的报警规则。

阿里云1+X云计算开发与运维实战——云监控初体验_负载均衡_36

5. 在 设置报警规则 页面中,点击添加规则,设置如下信息:规则名称 自定义,如:warning监控项 选择 CPU使用率统计周期 设为 1分钟统计方法 设为 只要有一次 、>=阈值 输入 80%。也就是,每分钟都会统计CPU的使用率,当有1次检测到的CPU使用率大于80%时,会触发报警规则。设置完成后点击确认。

阿里云1+X云计算开发与运维实战——云监控初体验_云监控_37

阿里云1+X云计算开发与运维实战——云监控初体验_管理控制_38

阿里云1+X云计算开发与运维实战——云监控初体验_云监控_39

6. 然后在的 新建联系人组 的对话框中,配置如下信息:已选联系人 是将 已有联系人 中自建的报警联系人,如:Connie(用户自定义姓名),添加到 已选联系人。完成后,点击 确定

注意:在新建联系人组之前,必须在 报警联系人 中创建相应的报警联系人。若报警联系人加入到同一个联系人组中,则这个组中的所有报警联系人均会收到相同的报警的提示信息。

阿里云1+X云计算开发与运维实战——云监控初体验_管理控制_40

7.报警规则 的页面中,查看到 状态 为 正常 的 CPU实用率 的监控项。说明,当前ECS实例的CPU使用率<80%。

阿里云1+X云计算开发与运维实战——云监控初体验_云监控_41

8. 创建报警规则后,使用stress压测工具,增加CPU使用率,触发报警规则。首先,远程登录到沙箱 实验资源 提供的 网站服务器 ECS实例中。请使用本资源提供的ECS服务器的 弹性IP用户 和 密码

阿里云1+X云计算开发与运维实战——云监控初体验_负载均衡_42

9. 登录到ECS实例后,输入如下命令,增加ECS实例的CPU使用率。

stress --cpu 8 --io 4 --vm 2 --vm-bytes 128M --timeout 10m

阿里云1+X云计算开发与运维实战——云监控初体验_管理控制_43

10. 返回云监控管理控制台,查看ECS实例监控数据:首先,点击云监控管理控制台左侧栏中的 主机监控,选择 实验资源 提供的 地域 。然后,在右侧主界面中查看ECS实例的CPU利用率的详细数据信息。等待1-2分钟后,CPU使用率将达到100%。

阿里云1+X云计算开发与运维实战——云监控初体验_云监控_44

11. 同时,在手机中会收到短信提示信息:ECS实例CPU百分比最大值超过80%。等待1-2分钟,压测结束,ECS实例回复正常,收到一条新的短信通知 CPU百分比回复正常。因此,在真实的工作环境中,通过设置报警规则,用户可以及时发现ECS的异常状态。

阿里云1+X云计算开发与运维实战——云监控初体验_管理控制_45

2.5 使用云监控对站点进行监控

1.        云监控不仅可以对阿里云中的云资源进行监控,也可以使用云监控对自建Nginx服务器的站点进行监控,并设置报警规则,通过设置报警规则,及时发现站点异常现象,并对其处理。

说明:用户不仅可以对自己的站点进行监控,也可以对百度等网站进行监控。

2.        首先,在云监控管理控制台中,点击左侧栏的 站点监控,进入 站点监控 页面,点击左上角的 创建任务,弹出创建对话框,开始创建站点监控。

阿里云1+X云计算开发与运维实战——云监控初体验_负载均衡_46

3.       (1) 在 创建监控点 的对话框中,站点类型 选择 HTTP监控点的名称 输入 Nginx服务器监控地址 输入  实例资源 提供的 负载均衡器的 IP地址监控频率 设为 1分钟选择探测点为默认设置,完成后,点击 确定。如上配置,可以实现每分钟监控负载均衡的访问IP地址的状态。

阿里云1+X云计算开发与运维实战——云监控初体验_云监控_47

(2)设置告警中,状态码>=400,也就是当网站访问异常的时候,触发报警规则。同时联系人通知组 勾选 EcsOps。完成后,点击 完成

阿里云1+X云计算开发与运维实战——云监控初体验_管理控制_48

阿里云1+X云计算开发与运维实战——云监控初体验_负载均衡_49

阿里云1+X云计算开发与运维实战——云监控初体验_负载均衡_50

阿里云1+X云计算开发与运维实战——云监控初体验_管理控制_51

4.        在 站点监控 页面,可以查看到一个新建监控站点 Nginx服务器,等待1-2分钟后,可以查看到不同地域监控点的监控信息。

阿里云1+X云计算开发与运维实战——云监控初体验_云监控_52

5.        此时,停止负载均衡后端的ECS实例,模拟网站服务器异常,导致站点不可访问。点击顶部导航栏的 产品与服务 ,下拉列表依次选择 云计算基础服务 ---> 弹性计算 ---> 云服务器ECS,返回ECS管理控制台。点击左侧栏中 实例,在顶层栏中,选择云中沙箱 实验资源 提供的 地域,比如 华南1 。点击实例右侧的 更多,在弹出的下拉菜单中,点击 实例状态-->停止

阿里云1+X云计算开发与运维实战——云监控初体验_负载均衡_53

阿里云1+X云计算开发与运维实战——云监控初体验_负载均衡_54

强制停止,并勾选 确定要强制停止。完成后,点击 确定

阿里云1+X云计算开发与运维实战——云监控初体验_负载均衡_55

6.        等待1分钟,ECS状态变为 已停止。此时,在浏览器中访问 实验资源 提供的 负载均衡器 的 IP地址,页面显示 504 错误。

阿里云1+X云计算开发与运维实战——云监控初体验_云监控_56

504。在真实环境中,建议用户,尽快处理监控异常的网站,避免影响业务的正常使用。

2.6 清理云监控

1.        当某个站点不再使用,或者用户不希望再获取来自云监控的报警信息时,用户需要对云监控进行清理。本实验主要进行如下内容的清理:监控站点 和 报警联系人信息 清理。

2.        首先,进入云监控管理控制台的 站点管理 页面,勾选不需要监控的网站。然后,点击列表右侧的删除

阿里云1+X云计算开发与运维实战——云监控初体验_管理控制_57

点击报警服务报警规则,勾选当前规则,点击当前规则左侧的删除选项,进行删除

3. 点击左侧栏 报警联系人,在 报警联系人 页面中,选择要清除的联系人,如:Connie(用户自定义姓名)右侧的 删除

注意:为了确保用户的个人信息安全,请务必删除自建的报警联系人的信息,避免个人信息泄漏,导致安全问题。

在弹出的提示对话框中,点击 确定。删除报警联系人 Connie

阿里云1+X云计算开发与运维实战——云监控初体验_管理控制_58

阿里云1+X云计算开发与运维实战——云监控初体验_管理控制_59

至此,完成云监控的全部实验步骤。

标签:实战,负载,初体验,运维,报警,点击,实例,ECS,监控
From: https://blog.51cto.com/lyx888/6217594

相关文章

  • 浅谈电力监控在地铁运维中的应用
     摘要:随着我国工业化进程的不断推进,我国监控系统也实现了长足的发展。以往传统的地铁监控模式已经无法满足当前需求,将电力监控系统和地铁综合监控系统已经进行资源整合,有效实现了地铁信息的共享与互动,综合提高了地铁自动化监控水平,保证了地铁运行的可靠与安全。  关键词:电力监......
  • 基于django+ansible+webssh运维自动化管理系统
    基于django+ansible+webssh运维自动化管理系统 前言最初开发这个基于Djangoansible运维自动化管理系统的想法其实从大学时候就已经有了,但是苦于技术原因和没有线上环境原因一直没有开发,现在有了这个技术和环境之后开始着手开发了这个项目,项目难点在于你要理解如何设计数据库,......
  • 破防了,这才是机房运维的高效方法
    在云计算、5G等新业务野蛮生长的催化下,机房规模与容量也呈倍速扩张。机房安全是业务发展的底座。提升机房设备安全和管理效率,避免人为因素导致的事故发生,是机房运维的必要前提。安全生产重于泰山,除了日常的科学防护,中外运维也曾一致的走近玄学。了解工作性质,似乎也不难理解这个现象......
  • 如何做好今天的运维
    近年来很多声音讨论运维岗是不是会被替代的问题。但随着ChatGPT的出现和更多大模型的发布,似乎每个岗位都应该考虑下自己被替代的问题了。无论未来如何变化,现实是今天的我们仍然需要做好自己的工作,站好自己的岗。今天我将分享我所认为的优秀运维和架构师应该是怎样的。最后是关于运......
  • 运维 —— IMP-00030: failed to create file import_sys for write
    IMP-00030:failedtocreatefileimport_sysforwriteIMP-00000:Importterminatedunsuccessfully原因:操作系统用户oracle对dmp文件没有权限drwxr-xr-x 2root  root       42Feb 316:57dmp_dir解决办法:登录root用户,对用户oracle赋予dmp文件一些权限在root......
  • 利用Velero对K8S备份还原与集群迁移实战
    一、简介Velero是一款云原生时代的灾难恢复和迁移工具,采用Go语言编写,并在github上进行了开源,利用velero用户可以安全的备份、恢复和迁移Kubernetes集群资源和持久卷。开源地址:https://github.com/vmware-tanzu/velero官方文档:https://velero.io/docs/v1.11/1.1支......
  • 阿里云1+X云计算开发与运维实战——在ECS中部署容器化应用Nginx
    1.1 实验概述开始实验后,系统自动创建一个Linux的ECS实例。根据实验步骤操作说明,安装Docker应用,熟悉Docker的基本指令,拉取容器化应用Nginx的镜像,部署Nginx应用,最后验证部署结果。1.2 实验目的熟悉Docker的安装和基本指令,熟悉部署Docker应用基本方法。1.3实验架构1.4实验准备实验......
  • 阿里云1+X云计算开发与运维实战——使用kubectl命令行工具对容器进行操作
    1、实验概述使用Kubectl 命令行工具操作 kubernetes 集群是最直接的管理集群的途径。开始实验后,系统自动在阿里云上创建一个Kubernetes集群。根据实验步骤操作说明,远程登陆集群master节点,然后使用kubectl命令行工具,对集群进行基本操作。包括创建资源对象,显示和查找资源对象,更新......
  • 线上多域名实战
    本文博主给大家分享线上多域名实战,当线上主域名不可用的情况下,启用备用域名完成网站高可用保障。网站的高可用性一直是网站运维的重中之重。一旦网站宕机,不仅会造成巨大的经济损失,也会严重影响用户体验。备份域名就是一种实现网站高可用的重要手段。通过备份域名,可以在主域名不......
  • flutter入门实战——文件读取和写入
    问题背景本文将介绍flutter中如何读取文件内容以及保存内容到文件。问题分析先直接上效果:问题解决话不多说,直接上代码。main.dart文件,代码如下:import'dart:async';import'dart:io';import'package:flutter/material.dart';import'package:path_provider/path_provid......