• 2025-01-21「 zabbix企业微信告警」
    一、前言:1、​zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。2、zabbix能监视各种网络参数,保证服务器系统的安全运营;并提供灵活的通知机制(本次讲的企业微信)以让系统管理员快速定位/解决存在的各种问题。3、zabbix由2部分构成,zabbi
  • 2025-01-16前端怎么做好稳定性保障体系建设?精准搞定“白虎”,不用叫“广智”!
    作者:京东零售刘伟东前言背景:实话实说才能做的更好1.业务间的监控策略层次不齐:前后端针对监控专项的标准规范缺失,导致有的业务监控完善,其他业务缺复用不了2.集团前端监控平台能力不完善,导致告警噪音大,一线研发无法通过自行思考抽丝剥茧,做有效合理监控,久而久之,监控告警熟视无睹
  • 2025-01-142、Grafana-Prometheus学习笔记
    一、时序数据库:时序数据库(TimeSeriesDatabase,TSDB)是专门为处理和存储时序数据而设计的数据库。时序数据是带有时间戳的数据,通常用于表示随时间变化的测量值。时序数据库在许多应用领域中具有关键作用,包括物联网(IoT)、应用性能监控(APM)、金融市场分析、环境监测、工业自动化等。
  • 2025-01-13日志分析(溯源、防护)
    全局日志分析,有效促进溯源和防护战法一:态势感知攻击检测 战法目标 在各类安全设备的告警中,误报比例普遍较高,这无疑加大了系统辨别真实攻击并及时响应的难度。通过统一日志平台,可以对关键信息进行快速查询检索,极大提高攻击检测效率。 实现思路 通过日志系统快速统
  • 2025-01-10夜莺监控支持 ES 日志告警了
    夜莺项目( https://github.com/ccfos/nightingale )发布了v8.0.0-beta.3版本,这个版本主要是支持了ES日志告警,下面给大家介绍一下。新版本下载到如下地址下载发布包:https://github.com/ccfos/nightingale/releases/tag/v8.0.0-beta.3由于夜莺v8版本默认配置使用sqlite
  • 2025-01-08循序渐进--从零开始建设k8s监控之alertmanager+发送飞书(三)
    前言书接上文,prometheus已经安装好了,监控数据是有了,我们需要对其进行告警,并且可以发送到对应的平台,比如飞书、钉钉等,这里选择用飞书来测试环境准备组件版本操作系统Ubuntu22.04.4LTSdocker24.0.7alertmanagerv0.27.0下载编排文件本文所有的编排文件,都
  • 2025-01-07运维人必须掌握的 5 种常用运维监控工具
    运维监控工具千千万,仅开源的解决方案就有流量监控(MRTG、Cacti、SmokePing、Graphite等)和性能告警(Nagios、Zabbix、ZenossCore、Ganglia、OpenTSDB等)以及乐维监控等可供选择。并且每种软件都有自己的特点和功能,各自的侧重点和目标不完全相同,在设计理念和实现方法上也大同
  • 2025-01-06某纪检工作委员会视频监控网络综合运维项目
        随着某纪检工作委员会信息化建设的不断深入,网络基础设施的数量持续增加,对网络设备的运维管理提出了更为复杂和艰巨的要求。为了确保这些关键信息基础设施能够安全稳定地运行,该纪检工作委员会决定引入智能化运维管理系统,以科技赋能纪检监察工作。项目现状设备类型:交
  • 2025-01-02给你的zabbix邮箱告警加上AI建议
    给你的zabbix邮箱告警加上AI建议文章目录给你的zabbix邮箱告警加上AI建议拓扑结构zabbix-server安装pypl包同步时间编写邮箱告警代码编写spark接口修改server配置文件开启邮箱媒介配置告警通知接收用户配置告警通知动作自定义监控项(检测登录数量)创建模板与监控项创建触
  • 2024-12-31线上事故频发?别只盯着“大事故”,这些认知误区才是真凶!
    最近和不少技术团队的朋友交流,大家都在为线上事故频发而头疼。吭哧吭哧跟踪了半年,各种复盘、优化,结果呢?事故依然像打不死的小强,层出不穷。为什么我们如此努力,却依然难以摆脱线上事故的困扰?很多时候,问题并非出在我们的执行力上,而是我们对于稳定性的认知就存在偏差,让我们在错误的道
  • 2024-12-31线上事故频发?别只盯着“大事故”,这些认知误区才是真凶!
    最近和不少技术团队的朋友交流,大家都在为线上事故频发而头疼。吭哧吭哧跟踪了半年,各种复盘、优化,结果呢?事故依然像打不死的小强,层出不穷。为什么我们如此努力,却依然难以摆脱线上事故的困扰?很多时候,问题并非出在我们的执行力上,而是我们对于稳定性的认知就存在偏差,让我们在错误的道
  • 2024-12-30北京某新能源汽车生产及办公网络综合监控项目
        北京某新能源汽车是某世界500强汽车集团旗下的新能源公司,也是国内首个获得新能源汽车生产资质、首家进行混合所有制改造、首批践行国有控股企业员工持股的新能源汽车企业,其主营业务包括纯电动乘用车研发设计、生产制造与销售服务。项目现状    在企业全面迈
  • 2024-12-27项目报 OutOfMemoryError 、GC overhead limit exceeded 问题排查以及解决思路实战
    项目报OutOfMemoryError、GCoverheadlimitexceeded问题排查以及解决思路实战前言:问题现象描述:1,生产环境有个定时任务,没有初始化告警数据【告警数据量为1000多个】2,其他定时任务执行正常3,查询日志到定时任务执行之前有日志打印4,手动触发补偿告警定时任务接口报Out
  • 2024-12-27实现多个盒子的控制管理的智慧地产开源了。
    智慧地产视觉监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒,省去繁琐重复的适配流程,实现芯片、算法、应用的全流程组合,从而大大减少企业级应用约95%的开发成本。AI是新形势下数字经济的重要基础设施,具备同各行各业结
  • 2024-12-27易用友好的开源实时监控系统--HertzBeat
    ApacheHertzBeat(incubating)是一个易用友好的开源实时监控告警系统,无需Agent,高性能集群,兼容Prometheus,提供强大的自定义监控和状态页构建能力。官网https://hertzbeat.apache.org/zh-cn/特点集监控+告警+通知为一体,支持对应用服务,应用程序,数据库,缓存,操作系统,大数据,
  • 2024-12-27GaussDB轻量化运维管理工具介绍
    ​前言本期课程将从管理平台的架构出发,结合平台的实例管理、实例升级、容灾管理和监控告警的功能和操作介绍,全面覆盖日常运维操作,带您理解并熟练运用GaussDB运维平台完成运维工作。一、GaussDB运维管理平台简介开放生态层友好Web界面,多云皮肤个性化定制丰富的原子API公有
  • 2024-12-26 WatchAlert - 一款轻量级云原生多数据源监控告警引擎(运维研发必备能力)
    概述在现代IT环境中,监控和告警是确保系统稳定性和可靠性的关键环节。然而,随着业务规模的扩大和数据源的多样化,传统的单一数据源告警系统已经无法满足复杂的需求。为了解决这一问题,我开发了一个开源的多数据源告警引擎——WatchAlert,它能够集成多种数据源,提供灵活的告警策略配置
  • 2024-12-25夜莺 v8 第一个版本来了,开始做有意思的功能了
    夜莺v8大版本已经启动开发,预计25年7、8月份发正式版,相比v7大概会做四五个大功能,每个功能做完了做稳定了都会提前放出来供大家体验,虽然以beta来命名,实际是稳定的,大家可以放心升级。夜莺v5v6v7三个大版本算是一脉相承,一直在打基础,最后一个稳定版是v7.7.2,可以看作是
  • 2024-12-24重庆市某区教委城域网网络管理与态势感知项目
        重庆市某区教育委员会是区政府直辖的一级政府职能部门,主要负责本区的教育工作。项目现状    重庆市某区教育委员会肩负着该地区众多学校和教育机构的信息化重任。随着全区教育数字化转型进程的不断推进,如何确保城域网的稳定性与高效性运作已成为其核心关注
  • 2024-12-24智能监控与实时响应:下一代防火墙运维方案
        防火墙是维护网络安全的关键要素之一。随着网络攻击手段的不断复杂化、智能化以及高速化的发展,防火墙作为网络安全的第一道防线,其重要性愈发凸显。有效的防火墙管理不仅能够确保其运行和性能的稳定性,同时也能显著降低企业面临的外部威胁风险。随着防火墙数量的增加以
  • 2024-12-23如何借助边缘智能网关实现厂区粉尘智能监测告警
    在诸如木制品加工、纺织品加工、塑料橡胶制品加工等多种工业生产场景中,粉尘问题的隐患和风险不可小觑。如果缺少对生产环境中粉尘的监测和管理,可能发生易燃易爆、环境污染和工人尘肺等生产事故。  针对工业场景中的粉尘状况监测、管理及预警,佰马提供基于边缘智能网关的粉尘
  • 2024-12-23zabbix外部程序告警关键配置
    环境:OS:Centos7zabbix:4.0.5 1.主机配置  2.用户配置     3.用户组配置   4.动作配置 可以针对某个具体的触发器定义动作      5.脚本需要加上执行权限chown+x脚本   
  • 2024-12-23【安全运维】监控告警要点总结
    前言监控告警是业务稳定性建设非常重要的一环,告警项的配置、告警阈值的设置、告警信息的发送和响应,都影响着业务稳定性。随着系统版本迭代,监控告警工具的变更,人员的变动等诸多因素的变化,我们需要定期对监控告警的方方面面做复盘,不断优化提升监控告警,以最大程度保障业务稳定。202
  • 2024-12-21消防通道堵塞占用识别告警摄像机
    消防通道堵塞是一种常见的安全隐患,一旦发生火灾或其他紧急情况,堵塞的消防通道将会对疏散和救援工作造成严重阻碍。为了及时发现和解决消防通道堵塞问题,人们研发了消防通道堵塞占用识别告警摄像机。这种摄像机利用先进的人工智能技术和图像识别算法,能够实时监测消防通道的情况,快速
  • 2024-12-20基于Grafana自动化运维巡检API集成方案
    场景      某应用平台已经有Grafana面板,我们编写实现监控Grafana的API指标,实现自动化监控与巡检数据流图解决方案概述要实现通过SpringBoot程序与Grafana告警HTTPAPI进行交互,自动化运维告警,可以按照以下步骤进行:Grafana配置:配置Grafana的数据源(如Prometheus、InfluxDB