首页 > 其他分享 >阿里云运维第一步(监控):开箱即用的监控

阿里云运维第一步(监控):开箱即用的监控

时间:2024-06-13 17:56:14浏览次数:26  
标签:监控 报警 观测 阿里 开箱 https com 云运维

作者:仲阳

这是云的时代,现在云计算已经在各行各业广泛的应用。但是上云对于大多数客户来说,依然有很大的学习成本,如下图仅是阿里云都有几百款产品,怎么选择?怎么用?对于客户来说都是问题。“用好云、管好云”不仅仅是口号,还是我们的目标。

来自于:https://developer.aliyun.com/ebook/8326?spm=a2c6h.26392470.ebook-read.3.1c186341TEtt9B《阿里云产品手册 2024 版》

“兵马未动、粮草先行”, 今天我们就针对阿里云的上云新用户,如何开启自己的可观测历程,做一个简单的介绍。

认识可观测的分层

在可观测的领域里面,技术栈主要分为 metric、trace、log 三个方向,从业务分成上我们的观点主要分为体验、业务、应用和资源。这个金字塔越上面的越贴近用户的真实体感,比如用户用了 100 台服务器,其中一台服务器宕机,不一定能影响用户,但如果是从网络监控上发现问题,大概率用户已经受影响。反过来讲,金字塔越下面,发现的问题越具体、越能快速解决,还是上面这个例子,ECS 有问题可以重启、扩容等处理方式,但用户体验服务不可用的原因就有很多,需要更多时间去确定问题。

言归正传,今天我们希望跟一些刚刚涉猎阿里云的客户可以快速构建一套完整的云资源监控解决方案。在此基础上随着云应用的深入,有更多可观测解决方案等着你。

阿里云云监控的初体验

阿里云云监控旨在解决可观测领域的各种问题。基石就是下面这三个技术栈,在这个基础上又分为 Dashboard、Alert、API 等多用应用方式。云监控云服务监控主要针对的是 Metrics on Cloud Resource 这个场景。

首先我们要先进入云监控产品页,可以看到有五大功能模块——云资源监控、网络分析与监控、可视化 Dashboard、告警服务、事件中心。其中云资源监控是我们今天重点分享的一个功能模块,这个模式是开箱即用的功能,只要用户在阿里云上购买了资源产品,就可以在这里看到相关的监控指标大盘。

既然要“用好云”,自然是要按照“看得见”、“听得见”。需要时可以通过可视化组件看到云资源的状态,忙时系统还会自动的监控资源,通过报警系统通知出来。

在云监控上如何“看得见”

无用质疑,ECS 是阿里云计算的根基,也是云监控首要支持的一个款产品。在云监控的菜单体系里面也是最显眼的地方,如上图。用户购买 ECS,自然可以在“主机监控”这个菜单看得到。主机监控的视图将围绕 CPU、内存、负载、网络、磁盘,同时也提供了 Top 5 进程监控。

云监控不仅仅有 ECS 的监控,有超过 100 款云产品的监控数据都在云监控产品,可以说在云监控可以看到阿里云资源的任意监控。

高阶玩家还有两个选择:

1)自定义 Dashboard,可以用自己的视角管理云资源监控。

2)通过 API 将监控指标数据拉走,通过自建的监控系统做集成。

这篇文章主要聚焦在监控运维的第一步,高阶玩法暂时不展开。

如何在云监控系统中“听得见”

做过运维的人都应该清楚一个事情,可观测是手段不是目的。客户最重要的目的是让自己的应用(服务)长期保持高可用。为了这个目标,可观测是第一步,首先要看得见系统的状态,然后就是在这个状态不正常进行合理的运维,比如扩容、重启、迁移、限流等等。

同样,高阶玩家有很多措施可以完成这个目标(“应用(服务)长期保持高可用”),但在这篇文章中,我们更想给初入此道的同学以简单易用,类似于 helloworld 这个层次的介绍。有了第一步,进阶还远么?

如何听得见?

电话、短信、邮件?不够

钉钉、企业微信、飞书?好像有点意思了

自动弹性伸缩(ESS),Serviceless 函数调度(FC),消息队列驱动运维(MSN)?还可以这样?

终极杀器——Webhook:Pagerduty、Slack、Teams。

如果上面这些措施,客户还听不见?没事,你提出来,谁知道未来是怎样的。

其中这里面暗含另一个问题:我们需要听见什么声音?报警阈值的规则,高阶玩家可以选择智能阈值、组合报警、表达式报警等重量级别的功能。那初阶玩家应该做什么?两个事情:一键报警和治理检测。

一键报警,云监控已经将最重要的指标,以及指标的合理阈值都总结出来,对于初阶用户来说不用太多思考,先将报警规则设置好,当云资源出现问题时就可以及时响应。

治理检测,如果你不清楚你在云监控的用法是否合理,不用费脑子,一键诊断,按照提示下一步即可。一下子可以达到“水准之上”的水平。

写在后面

云资源监控是可观测领域里面一个子集,监控是运维的驱动力。可观测的建设是长期的,包括体验层面的 RUM(前端监控)、synthetic(拨测)、PTS(压测),应用监控(APM),日志等多方位全面的覆盖。大家需要根据自己的业务重要程度来做相应的解决方案。

今天只是初步的介绍了最入门的几个云监控开箱即用的能力,最小依赖的可以在阿里云得到基本的监控报警保证。后面还有有一系列的文章介绍云监控的概念和能力。

参考资料:

[1] “CITE 2015”亮点解读《2015 政府工作报告》

https://www.cac.gov.cn/2015-04/09/c_1114917386.htm

[2] 阿里云产品手册 2024 版

https://developer.aliyun.com/ebook/8326?spm=a2c6h.26392470.ebook-read.3.1c186341TEtt9B

[3] 阿里云云监控帮助文档

https://help.aliyun.com/zh/cms/

[4] 云监控指标

https://help.aliyun.com/zh/cms/support/appendix-1-metrics?spm=a2c4g.11174283.0.0.2f30182fLPRKyv

[5] AWS cloudwatch

https://aws.amazon.com/cn/cloudwatch/

[6] 钉钉

https://oa.dingtalk.com/

[7] 企业微信

https://work.weixin.qq.com

[8] 飞书

https://www.feishu.cn/

[9] pagerduty

https://www.pagerduty.com

[10] slack

https://slack.com/intl/zh-cn/

[11] teams

https://www.microsoft.com/zh-cn/microsoft-teams/group-chat-software

标签:监控,报警,观测,阿里,开箱,https,com,云运维
From: https://www.cnblogs.com/alisystemsoftware/p/18246440

相关文章

  • 【限免】Stable Diffusion一键部署 开箱即用!
    参加AI写真快闪活动时,教学视频只有几分钟,但您可能自己实操时,仅准备环境、上传下载文件就要花几个小时,甚至一两天,苦不堪言!近期好易智算重磅上线,完美解决了stablediffusion模型、Lora等大文件下载慢的问题,下载速度能稳定达到500M/s,5G左右的文件10秒内搞定,加上其一键部署、开箱即......
  • 淘宝天猫sku实时监控
    淘宝天猫sku实时监控可以通过以下步骤实现:获取需要监控的商品的SKUID。使用数据抓取工具(如Python的requests库)发送网络请求,获取商品的实时数据。解析返回的数据,提取所需的信息,如商品价格、库存数量等。将提取到的数据与预设的阈值进行比较,如果符合条件,发送提醒信息。设置定时......
  • 记一次 .NET某工厂报警监控设置 崩溃分析
    一:背景1.讲故事前些天有位朋友在微信上丢了一个崩溃的dump给我,让我帮忙看下为什么出现了崩溃,在Windows的事件查看器上显示的是经典的访问违例,即c0000005错误码,不管怎么说有dump就可以上windbg开干了。二:WinDbg分析1.程序为谁崩溃了在Windows平台上比较简单,可以用......
  • 如何用程序向微信发送消息,实现程序的运行监控
    程序如下importrequestsimportjsonimportosdefget_token(appID,appsecret):url_token='https://api.weixin.qq.com/cgi-bin/token?'res=requests.get(url=url_token,params={"grant_type":'client_credential'......
  • 再也不用担心流量超过上限了!Windows 11中监控数据使用情况的几种方法
    序言如果你使用按流量计费的连接或担心超过数据上限,在Windows上监控你的数据使用情况可能是有益的。这允许你调整你的使用模式,以确保你有效地使用数据。方法如下。使用任务管理器密切关注数据使用情况在任务管理器中,你可以实时监控计算机上的应用程序使用的数据量。这可以帮......
  • 国标GB28181安防视频监控EasyCVR平台级联时上级平台不显示通道是什么原因?
    国标GB28181安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台部署轻快,可支持的主流标准协议有GA/T1400、国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等。有用户反馈,GA/T1400协议/安防综合管理系统/视频汇聚EasyCVR......
  • 【ARM Coresight Debug 系列 -- ARMv8/v9 Watchpoint 软件实现地址监控详细介绍】
    请阅读【嵌入式开发学习必备专栏】文章目录ARMv8/v9WatchpointexceptionsWatchpoint配置信息读取ExecutionconditionsWatchpointdataaddresscomparisonsSizeofthedataaccessWatchpoint软件配置流程WatchpointType使用介绍WT,Bit[20]:WatchpointType......
  • 怎么监控屏幕?这三种方法,简单好用!
    屏幕监控已成为保障数据安全和提高工作效率的重要工具。无论你是企业管理者,还是个人用户,掌握屏幕监控的方法都能为你带来诸多便利。点击获取软件https://work.weixin.qq.com/ca/cawcde06a33907e60a接下来,就让我们一起了解三种简单好用的屏幕监控方法吧!方法一:外接显示器特......
  • 【Cesium】Vue+js+Cesium实现海康监控视频云台控制
    1.硬件设备与视频流接入    如需要一步上一篇博客【Cesium】Vue+js+Cesium实现监控视频流接入-CSDN博客文章浏览阅读308次,点赞12次,收藏17次。Vue2+js+Cesium实现监控视频流接入与相机云台控制https://blog.csdn.net/weixin_51540717/article/details/139614406?csdn_......
  • html2canvas前端生成PDF开箱即用
    目录1.下载html2canvas、jspdf2.创建工具类exportPdf文件3.页面中使用需求:将页面展示的所有信息都导出一个pdf文件 实现前端生成PDF只要3步 1.下载html2canvas、[email protected]@2.5.12.创建工具类exportPdfjs文件复制即用//导出页......