首页 > 其他分享 >云监控治理检测:云监控的自助化最佳实践

云监控治理检测:云监控的自助化最佳实践

时间:2024-09-12 16:53:08浏览次数:9  
标签:zh 检测 报警 自助 监控 cms guide

概述

在数字化转型浪潮中,云计算技术已成为企业实现敏捷性和创新的重要工具。作为全球领先的云服务提供商,阿里云在帮助企业实现高效云管理方面发挥着重要作用。

然而,随着云环境的日益复杂化和规模的不断扩大,如何有效管理和监控云资源,确保其高效、安全、合规地运行,成为企业面临的挑战。一方面,云监控多年来一直致力于提供更多的监控功能功能以便解决用户在更多场景下的监控需求,形成了丰富的平台能力。而另一方面,用户面临上云后如何做好监控的难题。不难发现,这两者之间存在间隙。那就是用户应该如何上手,如何借助阿里云监控这个平台多快好省地构建起一套完整的并且适合自己的监控体系。

为此,云监控提供了治理检测功能,能够帮助企业评估和提升其在运用云监控方面的能力,从而更好地应对这些挑战。它基于用户对资源的使用情况来推测用户所需的监控能力,帮助用户检测云监控的相关功能,并提供一键修复或治理建议,让用户自助化地运用云监控的最佳实践,构建一套完善的监控体系。

检测项分类

云监控将治理检测项分为监控覆盖、平台配置、使用状态、优化建议四大类,共 13 个检测项,全面涵盖用户在云监控运用过程中有没有做、有没有做对、有没有做好。以下以云产品资源监控和持续报警这两个检测项为例进行详细介绍。

云产品资源监控

云产品资源的运行状态直接影响着构建其上的应用以及支撑的业务。实现资源监控全覆盖是保证业务持续性的基础与关键。为云产品资源设置报警规则是实现云产品资源监控基础且必要的手段。如果存在云产品资源未被任何报警规则覆盖的情况将被视为需要关注和治理的问题。该检测项涵盖了包括 ECS、RDS、Redis、SLB、MongoDB、OSS 等在内的 17 款核心云产品。

如果用户在阿里云保有核心云产品的资源,则检测用户的报警规则是否对该资源进行了覆盖,如果没有覆盖,则判定该资源为待治理对象(如下图所示)。

用户可在按照检测报告中的提示,对这些监控未覆盖资源进行“一键治理”,云监控后台将自动开启一键报警,快速实现云产品资源监控的全覆盖。如果用户需要对报警规则进行细粒度的控制(监控指标、报警阈值、报警通知方式等),则可根据提示手动创建合适的报警规则,实现对云产品资源的覆盖。

持续报警

报警规则在符合设定规则的情况下处于报警状态是一种正常现象,但报警规则长期持续处于报警状态会直接导致报警疲劳(Alert Fatigure)--用户由于频繁收到大量报警信息,导致逐渐对这些报警失去敏感性,甚至开始忽略或不认真对待报警。报警疲劳会导致管理人员未能及时发现和响应真正关键的问题,进而可能导致系统出现严重故障或安全风险。因此,在配置报警规则时,需优化报警策略,减少不必要的报警,并对持续时间过长的报警规则、资源进行调整,以降低报警疲劳的风险是非常重要的。

当用户的报警规则中有任何一个在过去的 24 小时中持续处于报警状态(未恢复),则系统将该报警规则判定为待治理对象。通常情况下,需要尽快排除问题让监控指标恢复正常水位,或者需要结合实际情况调整报警规则阈值并消除误报警,避免影响正常的监控运维工作。

检测项一览

云监控治理检测的所有检测项见下表:

启用

当您初次使用治理检测功能时,需要先启用检测。登录云监控控制台->概览->治理检测 [ 14] 页面,点击立即检测

  1. 在左侧导航栏,单击概览。
  2. 在概览页面,单击治理检测页签。
  3. 单击立即检测后,等待检测完成即可。

查看检测报告

当检测完成后,您可以在页面中查看各检测项的结果。点击存在问题的检测项后,您可根据详情页面中的提示信息,查看需治理的对象并根据建议执行相应的治理动作。

结语

本文介绍了云监控的治理检测功能,以及用户如何通过它自助化地运用云监控的最佳实践,完善自己的监控体系。欢迎您前往云监控控制台体验该功能,期待您的反馈。

相关链接:

[1] 云产品资源监控

https://help.aliyun.com/zh/cms/user-guide/cloud-product-resource-monitoring

[2] 云监控插件安装覆盖率

https://help.aliyun.com/zh/cms/user-guide/cloud-monitor-plug-in-installation-coverage

[3] 无效的报警规则

https://help.aliyun.com/zh/cms/user-guide/invalid-alarm-rule

[4] 关联了已过期资源的报警规则

https://help.aliyun.com/zh/cms/user-guide/alarm-rules-associated-with-expired-resources

[5] 包含不推荐的指标规则

https://help.aliyun.com/zh/cms/user-guide/include-recommend-indicator-rules

[6] 使用旧版本系统事件订阅规则

https://help.aliyun.com/zh/cms/user-guide/use-old-version-system-event-subscription-rules

[7] 回调失败

https://help.aliyun.com/zh/cms/user-guide/untitled-document-1690167894723

[8] 持续报警

https://help.aliyun.com/zh/cms/user-guide/continuous-alarm

[9] 使用不推荐的云监控插件版本

https://help.aliyun.com/zh/cms/user-guide/use-an-recommend-version-of-the-cloudmonitor-plug-in

[10] 调用不推荐的云监控 API

https://help.aliyun.com/zh/cms/user-guide/call-an-unrecommend-cloud-monitoring-api

[11] 定期关注资源负载情况

https://help.aliyun.com/zh/cms/user-guide/regularly-monitor-resource-load

[12] 使用高效方式获取指标数据

https://help.aliyun.com/zh/cms/user-guide/use-an-efficient-way-to-capture-metric-data

[13] 持续监控公网服务的可用性

https://help.aliyun.com/zh/cms/user-guide/continuously-monitor-the-availability-of-public-network-services

[14] 持续监控公网服务的可用性

https://help.aliyun.com/zh/cms/user-guide/continuously-monitor-the-availability-of-public-network-services

标签:zh,检测,报警,自助,监控,cms,guide
From: https://www.cnblogs.com/alisystemsoftware/p/18410581

相关文章

  • Yolo第Y1周:详解YOLO检测算法的训练参数
    目录Yolo第Y1周:详解YOLO检测算法的训练参数Yolo第Y1周:详解YOLO检测算法的训练参数......
  • FlexibleBI高效精确的SPC数据分析系统,实时监控与智能报告生成
    在制造领域中,稳定的生产过程控制和质量分析是企业保持竞争力的核心。而我们推出的SPC(统计过程控制)系统,正是为满足现代生产需求而设计,提供了一系列灵活、智能的功能,帮助企业实现高效精准的数据分析与质量控制。FlexibleBI一键生成全面SPC分析报告通过我们的系统,只需轻松一键......
  • 推荐2024年10款优质电脑监控软件,电脑监控软件提供工作效率
    随着远程办公、在线学习以及企业信息化管理的需求不断增加,电脑监控软件成为了保障工作效率和信息安全的重要工具。它们可以帮助企业监控员工的工作进度、管理互联网使用情况,以及防止数据泄露。家长也可以通过这些软件来监督孩子的上网行为,确保网络安全。本文将为大家推荐10款在......
  • 通过LiveGBS实现GB28181接入不同网络监控摄像头时如何跟不同网络接入设置使用不同的收
    @目录1、背景2、设备接入播放2.1、查看通道2.2、直播播放3、默认收流地址配置4、其它网络设备收流配置5、搭建GB28181视频直播平台1、背景服务器部署的时候,可能有多个网卡多个网段。LiveGBS接入国标摄像头设备,或是下级平台的时候,可能来自于不同的网段。这时候,怎么把不同网络段的......
  • 通过LiveGBS实现安防监控摄像头GB28181转成WebRTC流实现web浏览器网页无插件低延迟直
    @目录1、WebRTC超低延时直播2、WebRTC延时对比3、LiveGBS的低延时的WebRTC流4、分屏页面如何选择默认播放流5、无法播放Webrtc6、搭建GB28181视频直播平台1、WebRTC超低延时直播需要低延时的视频流监控播放,之前可以用rtmp的低延时播放(1秒左右),随着浏览器对rtmp的禁用,无插件的低延......
  • 如何监控 Celery 任务的执行情况
    监控Celery任务的执行情况是确保系统稳定性和性能的重要部分。以下是一些常见的监控方法和工具,可以帮助你有效地监控Celery任务:1.使用FlowerFlower是一个实时的监控工具,可以用来监控Celery任务。它提供了一个基于Web的界面,显示任务的状态、成功率、失败原因等信息。......
  • 视频监控推流助手/极低延迟/支持N路批量多线程推流/264和265推流/监控转网页
    一、前言说明搞视频监控开发除了基本的拉流以外,还有个需求是推流,需要将拉到的流重新推流到流媒体服务器,让流媒体服务做转发和负载均衡,这样其他地方只需要问流媒体服务器要视频流即可。为什么拉了又重新推呢,因为软件这边和可能拉流后做了处理,比如做了人工智能运算,识别到了物体方框......
  • Prometheus(普罗米修斯)监控系统 - 4、服务器硬件信息监控(ipmi-exporter)
    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、下载ipmi_exporter二、dockerimage制作三、测试四、加入监控四、监控进阶总结前言IPMI监控基于IPMI协议,允许对物理服务器的硬件进行低级别管理。IPMIExporter通过与BMC(BaseboardM......
  • C2A:灾难场景中人体检测数据集(猫脸码客 第185期)
    亲爱的读者们,您是否在寻找某个特定的数据集,用于研究或项目实践?欢迎您在评论区留言,或者通过公众号私信告诉我,您想要的数据集的类型主题。小编会竭尽全力为您寻找,并在找到后第一时间与您分享。C2ADataset:HumanDetectioninDisasterScenarios在自然灾害和人为灾难的应......
  • Zabbix自定义监控项与触发器
            当我们需要获取某台主机上的数据时,直接利用zabbix提供的模板可以很方便的获得需要的数据,但是有些特别的数据,利用这些现有的模板或监控项是无法实现的,例如网站状态信息的监控、mysql数据库主从状态等信息。这是就需要自己定义键值和监控项,以满足企业对检测数......