实验概述
本实验会自动创建一台已部署Nginx的ECS实例和一台负载均衡SLB实例。首先,使用阿里云云监控的 云服务监控 服务,配置并查看ECS实例和SLB实例的监控数据。然后,设置ECS实例的报警规则,并验证报警规则生效。之后,使用 站点监控 服务,监控已部署Nginx的站点的状态,并设置站点报警规则,验证报警规则。最后,清理云监控中的监控资源。
背景知识
云监控(CloudMonitor)作为云服务的监控管理入口,能让用户快速了解各产品实例的状态和性能。云监控从站点监控、云服务监控、自定义监控三个方面来为用户提供服务。通过云监控管理控制台,用户可以看到当前服务的监控项数据图表,清晰了解服务运行情况。并通过设置报警规则,管理监控项状态,及时获取异常信息。云监控目前免费限量为用户提供监控服务。
云监控为用户提供了非常丰富的使用场景:
- 云服务监控:用户购买和使用云监控支持的阿里云服务后,可监控多种阿里云云服务的各项基础指标,比如:ECS的CPU使用率、内存使用率、公网流出流速(带宽)等。确保实例的正常使用,避免因为对资源的过度使用造成用户业务无法正常运转。云监控会根据用户设置的报警规则,在监控数据达到报警阈值时,发送报警信息。用户可以及时获取异常通知,并查询服务异常的原因。
目前,云服务监控对用户开放的产品包括云服务器ECS、云数据库RDS、负载均衡、云数据库Memcache版、对象存储OSS、CDN、弹性公网IP、云数据库Redis版、消息服务、日志服务等,其它云产品的监控会陆续加入进来。
- 站点监控:支持提供多种协议的监控设置,可探测您站点的可用性、响应时间、丢包率。让用户全面了解站点的可用性,并在发生异常时,可以及时处理。
站点监控目前支持8种协议的探测,探测点包括:杭州、青岛、北京,探测频率支持:1分钟、5分钟、15分钟。
- 自定义监控:补充“云服务监控”的不足,如果云监控服务未能提供您需要的监控项,那么,用户可以创建新的监控项并采集监控数据上报到云监控,云监控会对新的监控项提供“监控图表”展示和“报警”功能。
本实验主要介绍如何使用云服务监控,以及使用“站点监控”对用户自建的网站进行监控。通过设置报警规则,用户可以及时发现站点的异常情况,并做出及时的处理。
实验目标
完成此实验后,可以掌握的能力有:
1. 使用云监控的管理控制台,监控ECS等阿里云产品
2. 创建报警规则,及时获取阿里云服务或站点的异常状态;
3. 使用站点监控,对网站进行监控。
4. 清理云监控中的监控资源
实验实施
实验资源:
2.1 监控阿里云云服务
1. 本章节将介绍如何使用云监控对阿里云上的资源进行基础监控,本实验主要实现对ECS和负载均衡实例的基本监控。首先,在负载均衡实例中创建监听,然后,在ECS实例中安装云监控插件。最后,在云监控中查看ECS,负载均衡的监控数据。
说明:使用云监控对负载均衡实例进行监控时,不需要安装监控插件。但是,负载均衡实例中必须有监听。否则,云监控将无法对负载均衡实例进行监控。
2.登录实验提供的子用户:
3.进入阿里云管理控制台后,点击阿里云管理控制台的左上角 产品与服务,在弹出的下拉列表中,选择 负载均衡,进入负载均衡管理控制台。
4.在负载均衡服务管理控制台的 实例管理 中,选择 实验资源 提供的 地域。之后在顶部的搜索栏中,左侧关键字下拉框选择 负载均衡ID,搜索框中填入负载均衡ID 后 点击 搜索。在查询结果中点击右侧的操作栏下的 管理,进入SLB实例的管理界面。
5.在负载均衡实例的管理页面,点击 监听配置向导,进入 监听配置 页面。当前负载均衡实例中,无任何监听。点击右侧的 添加监听,创建负载均衡的监听。
6.在 基本配置 页面中,输入如下参数:前端协议 选择 HTTP,端口 设为 80;后端协议 HTTP的端口也设为 80;带宽峰值 为 1M。其余为默认设置。完成后,点击 下一步。
在后端服务器页面中,选择默认服务器组,点击继续添加,勾选ECS实例,点击下一步。
端口为80,权重为100,点击下一步。
在 健康检查配置 页面中,关闭 健康检查。完成后,点击 确认。
在配置审核页面中,检查监听配置无误后,点击提交。
页面提示监听配置成功,点击 确认。在 监听配置 页面,可以查看到一个状态为 运行中 的监听项。
7. 点击阿里云管理控制台的左上角 产品与服务,在弹出的下拉列表中,依次选择 云计算基础服务---监控与管理---云监控,进入云监控的管理控制台。
8. 在 云监控 管理控制台的左侧栏中,查看到目前云监控主要提供的三种服务:站点管理,对网站进行监控;云产品监控,对阿里云中的多种产品和服务进行监控,目前云监控可以对 ECS,RDS 等云产品进行监控;自定义监控,为用户提供定制化的监控项,用户可以根据自身的需求,自定义监控内容,并实时的上传数据,查看监控信息。
9. 点击左侧栏 主机监控 。出现云监控服务关联角色,选择取消。页面显示在 实验资源 提供的 地域 中有一台ECS实例。选择此台ECS,然后点击批量安装或升级插件进行插件的安装。
说明:若ECS实例没有安装云监控插件,则无法使用云监控对ECS实例进行监控。
请等待1-2分钟,点击右上角的 刷新,当ECS实例的 ECS插件状态 变为 运行中,则完成ECS实例的插件安装。用户可以通过云监控管理控制台,查看此台ECS实例的监控数据。点击ECS实例右侧的 监控图表,实时查看更新的监控数据。
10. 在监控图表页面中,云监控提供两类ECS的监控数据:ECS实例基础监控 和 操作系统级别监控指标。用户可以根据自己的需求,查看相关的数据,并根据数据分析目前ECS实例的性能,适当调整实例的配置。可以点击具体目标查看监控详情。
说明:若无数据,请稍等1-2分钟后,刷新页面。因为云监控服务需要一定时间获取监控数据。
在详情中,用户可以自定义图表中显示的时间、查看云监控的其它信息。
11.点击左侧栏 云服务监控 的 负载均衡,页面显示当前帐户下仅有一台负载均衡实例。点击负载均衡实例右侧的 监控图表,查看负载均衡实例的监控数据。
12. 在负载均衡的监控图表页面中,用户可以查看到 流入流量,流出流量 等信息。点击 监控图表 中的 流入流量 等监控项目,进入详细的图表页面。
说明:流入流量,从外部访问负载均衡所需要消耗的流量;流出流量,负载均衡访问外部所需要消耗的流量;新建连接数,在统计周期内新建立的连接数的均值。它统计的是客户端连接请求,其中活跃连接数、非活跃连接数统计的也是客户端到负载均衡的连接请求。流入数据包数,负载均衡实例每秒接到的请求数据包数量;流出数据包数,负载均衡每秒发出的数据包数量;活跃连接数,当时所有ESTABLISHED状态的连接,可以理解为并发量,但是不能等同。因为如果用户采用的是长连接的情况,一个连接会同时传输多个文件请求;非活跃连接数,指除established状态的其他所有状态tcp连接数。
2.2 创建ECS监控报警规则
1. 在创建报警任务之前,首先,创建报警联系人。然后,将报警规则中选择报警联系人所在的联系人组,最后,验证在触发警报时,发送报警信息给报警联系人。
2.点击云监控管理控制台左侧的 报警服务-->报警联系人,在报警联系人的页面中,默认当前阿里云账号的注册信息为报警联系人。点击页面右上角的 新建联系人,创建一个新的报警联系人。
3. 在弹出的对话框中,输入 姓名,如:Connie,并输入 手机号 和 验证码。完成后,点击 确认。
注意:此处请填写真实的手机信息,否则,将无法获取验证信息,在本实验的最后一个章节,会介绍如何清理已创建报警联系人。并请进行清理,避免个人信息泄漏。
Connie(用户自定义姓名)和相应的手机号信息。
组名 为 EcsOps(自定义),然后点击确认。
4. 点击左侧栏中 主机监控 类别下的 云服务器ECS ,进入ECS监控列表,选择 实验资源 提供的 地域 。点击ECS实例右侧的 报警规则。查看ECS实例的报警配置。
建报警规则,创建新的报警规则。
5. 在 设置报警规则 页面中,点击添加规则,设置如下信息:规则名称 自定义,如:warning。监控项 选择 CPU使用率;统计周期 设为 1分钟;统计方法 设为 只要有一次 、>=,阈值 输入 80%。也就是,每分钟都会统计CPU的使用率,当有1次检测到的CPU使用率大于80%时,会触发报警规则。设置完成后点击确认。
6. 然后在的 新建联系人组 的对话框中,配置如下信息:已选联系人 是将 已有联系人 中自建的报警联系人,如:Connie(用户自定义姓名),添加到 已选联系人。完成后,点击 确定。
注意:在新建联系人组之前,必须在 报警联系人 中创建相应的报警联系人。若报警联系人加入到同一个联系人组中,则这个组中的所有报警联系人均会收到相同的报警的提示信息。
7.报警规则 的页面中,查看到 状态 为 正常 的 CPU实用率 的监控项。说明,当前ECS实例的CPU使用率<80%。
8. 创建报警规则后,使用stress压测工具,增加CPU使用率,触发报警规则。首先,远程登录到沙箱 实验资源 提供的 网站服务器 ECS实例中。请使用本资源提供的ECS服务器的 弹性IP,用户 和 密码。
9. 登录到ECS实例后,输入如下命令,增加ECS实例的CPU使用率。
stress --cpu 8 --io 4 --vm 2 --vm-bytes 128M --timeout 10m
10. 返回云监控管理控制台,查看ECS实例监控数据:首先,点击云监控管理控制台左侧栏中的 主机监控,选择 实验资源 提供的 地域 。然后,在右侧主界面中查看ECS实例的CPU利用率的详细数据信息。等待1-2分钟后,CPU使用率将达到100%。
11. 同时,在手机中会收到短信提示信息:ECS实例CPU百分比最大值超过80%。等待1-2分钟,压测结束,ECS实例回复正常,收到一条新的短信通知 CPU百分比回复正常。因此,在真实的工作环境中,通过设置报警规则,用户可以及时发现ECS的异常状态。
2.5 使用云监控对站点进行监控
1. 云监控不仅可以对阿里云中的云资源进行监控,也可以使用云监控对自建Nginx服务器的站点进行监控,并设置报警规则,通过设置报警规则,及时发现站点异常现象,并对其处理。
说明:用户不仅可以对自己的站点进行监控,也可以对百度等网站进行监控。
2. 首先,在云监控管理控制台中,点击左侧栏的 站点监控,进入 站点监控 页面,点击左上角的 创建任务,弹出创建对话框,开始创建站点监控。
3. (1) 在 创建监控点 的对话框中,站点类型 选择 HTTP;监控点的名称 输入 Nginx服务器;监控地址 输入 实例资源 提供的 负载均衡器的 IP地址;监控频率 设为 1分钟。选择探测点为默认设置,完成后,点击 确定。如上配置,可以实现每分钟监控负载均衡的访问IP地址的状态。
(2)设置告警中,状态码>=400,也就是当网站访问异常的时候,触发报警规则。同时联系人通知组 勾选 EcsOps。完成后,点击 完成。
4. 在 站点监控 页面,可以查看到一个新建监控站点 Nginx服务器,等待1-2分钟后,可以查看到不同地域监控点的监控信息。
5. 此时,停止负载均衡后端的ECS实例,模拟网站服务器异常,导致站点不可访问。点击顶部导航栏的 产品与服务 ,下拉列表依次选择 云计算基础服务 ---> 弹性计算 ---> 云服务器ECS,返回ECS管理控制台。点击左侧栏中 实例,在顶层栏中,选择云中沙箱 实验资源 提供的 地域,比如 华南1 。点击实例右侧的 更多,在弹出的下拉菜单中,点击 实例状态-->停止。
强制停止,并勾选 确定要强制停止。完成后,点击 确定。
6. 等待1分钟,ECS状态变为 已停止。此时,在浏览器中访问 实验资源 提供的 负载均衡器 的 IP地址,页面显示 504 错误。
504。在真实环境中,建议用户,尽快处理监控异常的网站,避免影响业务的正常使用。
2.6 清理云监控
1. 当某个站点不再使用,或者用户不希望再获取来自云监控的报警信息时,用户需要对云监控进行清理。本实验主要进行如下内容的清理:监控站点 和 报警联系人信息 清理。
2. 首先,进入云监控管理控制台的 站点管理 页面,勾选不需要监控的网站。然后,点击列表右侧的删除。
点击报警服务下报警规则,勾选当前规则,点击当前规则左侧的删除选项,进行删除。
3. 点击左侧栏 报警联系人,在 报警联系人 页面中,选择要清除的联系人,如:Connie(用户自定义姓名)右侧的 删除。
注意:为了确保用户的个人信息安全,请务必删除自建的报警联系人的信息,避免个人信息泄漏,导致安全问题。
在弹出的提示对话框中,点击 确定。删除报警联系人 Connie。
至此,完成云监控的全部实验步骤。
标签:实战,负载,初体验,运维,报警,点击,实例,ECS,监控 From: https://blog.51cto.com/lyx888/6217594