首页 > 其他分享 >自从用了这些监控工具,我连续几天没睡好觉!

自从用了这些监控工具,我连续几天没睡好觉!

时间:2024-08-01 11:39:32浏览次数:10  
标签:没睡 数据库 系统 监控 服务器 告警 好觉 自带

大家好,我是程序员鱼皮,今天分享一些很实用的系统监控告警工具。

 

为什么要用监控告警?

说到监控告警,没有企业开发经验的同学非常容易忽视它,甚至会有同学觉得没有必要,大不了出了 Bug 再修就是了。

这种想法大错特错!

我们把系统想象成人的身体。有的时候,一个人表面看起来可能很健康,但可能只是没有机会发现自己体内的异常,结果等到真的出事了,往往要承担的后果更严重。所以才需要定期体检,及时发现和处理问题。系统监控告警的作用也是类似的,能够及时发现系统中潜在的异常和问题、线上出了问题也能第一时间发现,尽早处理,从而预防或减轻故障。

此外,监控系统还有一些其他的好处,我们接着往下看。

 

怎么实现监控告警呢?

最直接能想到的办法就是自己写代码实现,比如给要重点关注的功能加点儿逻辑,出现某个异常的时候发送一条短信 / 邮件 / 企微消息即可。我们最开始就是这么做的:

但其实业务告警只是监控告警的其中一个层面,就像是人体的表面皮肤检查。如果我们想更全面地、更准确地监控系统的健康,还要里里外外做个全方位的体检,包括服务器监控、网络监控、应用监控、数据库监控、API 接口监控等等。

是的,听上去就很复杂,所以监控在现代运维中有了一个更专业的别名,叫 “可观测性”。可观测性是指系统能够通过监控和分析其内部状态来了解和诊断其健康状况和性能的能力。这个概念不仅包含了传统的监控,还扩展到了数据的收集、分析和响应。举个例子,我们通过监控发现系统的内存利用率不高,就可以适当降配节约成本;发现系统的内存利用率过高,就可以考虑是否要升配扩容。

想要自己优化系统的可观测性还是很复杂的,数据收集、数据存储、数据分析、告警机制、可用性保障、性能等等都要考虑,大厂都是有规模的基础设施团队来做。

对于我们个人开发者或者小公司来说,既然是全方位的 “体检”,我们一般不会自己来做,而是会选择更专业的工具或服务,直接使用和接入就好。下面就推荐几个我们团队在用的。

 

监控工具推荐

1、服务器监控

1)服务器自带的监控能力

只要你使用的是大厂的云服务器,基本都自带了服务器监控,还可以设置告警。比如下图腾讯云轻量应用服务器的监控,能看到 CPU、内存、网络带宽、硬盘等资源的使用情况:

 

2)容器平台的监控能力

如果你使用的是容器的方式来部署项目,基本上容器平台也自带了监控告警能力。比如微信云托管的服务监控,除了看到系统资源的占用情况外,还能看到接口调用量、请求错误量、接口 QPS 和响应时间,相当于自带了一部分 API 接口监控能力。

而且云托管平台支持在微信群内接收告警信息,非常方便。一旦节点被攻击了,立刻就能通知到你。

 

2、数据库监控

以前,没有数据库监控,我们很难关注到数据库的运行状态,不知道它工作辛不辛苦、有没有摸鱼或者超负荷加班。但现在,如果你使用的是第三方云服务商的云数据库,可以直接在平台上查看数据库的资源利用情况。比如我们用的腾讯云数据库自带的监控:

以前只能通过用户反馈或者服务器的故障来发现危害系统的慢 SQL,现在使用云数据库自带的智能管家,就能第一时间帮你发现慢 SQL,防患于未然。

还能一键帮你的数据库做个体检,不是 100 分的话都要及时修改:

 

3、应用监控

应用监控的范围比较广,我们使用的是阿里云的应用实时监控服务 ARMS,主要的原因是对比下来阿里在 Java 应用服务这一块的专业性确实更高。

包括应用服务器(比如 Java 的 Tomcat)的状态、API 接口调用情况、系统内部依赖服务的调用情况、定时任务的调用情况、线程池的状态、虚拟机的内存、GC 的情况等等。

还能查看应用拓扑结构、分析调用链路等等:

除了监控能力外,它的告警能力是真的强!我们把服务接入到了企微,只要有个环节出了问题,立刻就会给我们发送告警。还可以快速查看告警详情、认领告警、屏蔽告警等等。

实不相瞒,我们刚接入这玩意的那几天,还是挺痛苦的,因为暴露了很多之前没发现的系统问题,大半夜的企微也一直滴滴滴滴滴滴搁那响!我们团队的开发同学苦不堪言。

不过现在已经习惯了。。。额,准确地说是系统经过优化后,已经变得更健康了~

不管怎么样,接入监控告警还是很有必要的,感觉像是开了通透世界,对系统的状态了若指掌了!

但是监控服务的使用超过一定次数,是需要费用的,大概每月几十 G 的免费额度吧,企业项目的话其实很快就用完了。用于学习或者个人网站可以试试。

 

4、前端监控

除了上面的监控外,有时我们还想了解用户的行为、用户属性和业务指标,比如每天有多少用户访问网站、是用的 PC 还是手机、手机是什么牌子的、有多少新用户注册等等。那么可能还需要前端监控(当然也可以后端埋点统计),之前分享过的,用百度统计,一行代码就能接入到前端网站中,很方便~

 


 

OK,以上就是本期分享,恰饭去了~

 

更多

标签:没睡,数据库,系统,监控,服务器,告警,好觉,自带
From: https://www.cnblogs.com/yupi/p/18336341

相关文章

  • 信步漫谈之YourKit监控工具—远程监控步骤
    一、准备环境1、被监控服务器(安装YourKit客户端)2、监控服务器(安装YourKit服务端)二、准备材料1、yjp-11.0.9.exe:YourKit安装主程序2、yourkit_keygen.rar:YourKit破解程序(没有安装程序和破解程序的,自己上网找,我只是写写,哈哈哈)三、YourKit客户端安装与启动1、拷贝yjp-11......
  • 从赛场到云端:视频监控技术与赛事直播的技术融合与革新
    在当今信息化高速发展的时代,视频监控技术和赛事直播作为两个重要的应用领域,正在以前所未有的速度融合,共同推动着传媒与安防领域的进步。本文将探讨视频监控技术在赛事直播中的应用及其带来的革新。一、视频监控技术的演进视频监控技术具有悠久的历史,从传统上的模拟视频监控,到如......
  • 监控Windows API调用
    原文链接:https://www.cnblogs.com/zhaotianff/p/17328559.html很早就知道有ApiMonitor这个软件,可以监控WindowsAPI调用,但当时没有正式的使用场景,所以也没怎么在意。APIMonitor简介APIMonitor可以监视、控制应用程序以及服务进行的WindowsAPI调用。分为32位和64位......
  • SSH Exporter:基于Prometheus的远程系统性能监控神器
    SSHExporterEnglish|中文介绍SSHExporter是一个基于Prometheus规范的监控工具,通过SSH协议远程收集目标服务器的系统性能数据,如CPU使用率、内存使用情况、磁盘和网络I/O等,并将这些数据暴露为Prometheus格式的metrics,以便被PrometheusServer抓取和存储。功能......
  • Django 集成 celery 与执行结果监控
    Django集成celery与执行结果监控celery架构图一、搭建Django项目环境模块安装pipinstalldjango==3.2pipinstallcelerypipinstallredis#window环境下需要安装eventletpipinstalleventlet创建django项目django-adminstartprojectdjango_celery......
  • 自定义的基于线程的监控如何影响 celery 任务的启动时间?
    我使用Flask和celery来构建后端api。为了防止任务运行时间过长,我实现了一个自定义的基于线程的监视类来监视任务,并在任务运行时间过长时停止它们。这是我的实现。importosimportsysfromflaskimportFlaskfromceleryimportCelery,Taskimportloggingf......
  • 汽车测试及质量监控博览会(中国)——北汇信息邀请函
      尊敬的先生/女士:北汇信息将于8.28-30号参加汽车测试及质量监控博览会,展位号:7028,诚邀您莅临展位进行参观交流! 汽车测试及质量监控博览会(中国) 2024汽车测试及质量监控博览会(中国)(TestingExpoChina–Automotive)是引领世界的国际博览会,展示汽车测试、开发和验证......
  • 视频监控国标GB28181平台EasyGBS如何更换默认的SQLite数据库?
    视频流媒体安防监控国标GB28181平台EasyGBS视频能力丰富,部署灵活,既能作为业务平台使用,也能作为安防监控视频能力层被业务管理平台调用。国标GB28181视频EasyGBS平台可提供流媒体接入、处理、转发等服务,支持内网、公网的安防视频监控设备通过国标GB/T28181协议进行视频监控直播......
  • 安防视频监控EasyCVR视频汇聚平台无法编辑设备通道信息的原因排查及解决
    安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台基于云边端一体化架构,兼容性强、支持多协议接入,包括国标GB/T28181协议、部标JT808、GA/T1400协议、RTMP、RTSP/Onvif协议、海康Ehome、海康SDK、大华SDK、华为SDK、宇视SDK、乐橙SDK、萤石云SDK等。视频汇聚EasyCVR视频......
  • 正确认识与使用电气火灾监控系统
    摘要:分析我国电气火灾监控系统的应用现状及造成这种现状的原因,简要介绍国内外电气火灾基本情况及防控手段。总结我国电气火灾高发的6大主要原因,并系统地阐述电气火灾监控系统的组成及每种产品的用途及设置要求。关键词:电气火灾;电气火灾监控系统;剩余电流式电气火史监控探测器;测......