promethues常见告警规则

时间：2023-05-19 19:33:38浏览次数：35

标签：node labels summary instance promethues 规则告警使用率

# vim /usr/local/prometheus/rules/node-exporter.yml

# 服务器资源告警策略
groups:
- name: 服务器资源监控
rules:
- alert: 内存使用率过高
expr: (node_memory_Buffers_bytes+node_memory_Cached_bytes+node_memory_MemFree_bytes)/node_memory_MemTotal_bytes*100 > 95
for: 5m # 告警持续时间，超过这个时间才会发送给alertmanager
labels:
severity: 严重告警
annotations:
summary: "{{ $labels.instance }} 内存使用率过高，请尽快处理！"
description: "{{ $labels.instance }}内存使用率超过95%,当前使用率{{ $value }}%."

- alert: 服务器宕机
expr: up == 0
for: 3m
labels:
severity: 严重告警
annotations:
summary: "{{$labels.instance}} 服务器宕机，请尽快处理！"
description: "{{$labels.instance}} 服务器延时超过3分钟，当前状态{{ $value }}. "

- alert: CPU高负荷
expr: 100 - (avg by (instance,job)(irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 95
for: 5m
labels:
severity: 严重告警
annotations:
summary: "{{$labels.instance}} CPU使用率过高，请尽快处理！"
description: "{{$labels.instance}} CPU使用大于95%，当前使用率{{ $value }}%. "

- alert: 磁盘IO性能
expr: avg(irate(node_disk_io_time_seconds_total[1m])) by(instance,job)* 100 > 90
for: 5m
labels:
severity: 严重告警
annotations:
summary: "{{$labels.instance}} 流入磁盘IO使用率过高，请尽快处理！"
description: "{{$labels.instance}} 流入磁盘IO大于90%,当前使用率{{ $value }}%."


- alert: 网络流入
expr: ((sum(rate (node_network_receive_bytes_total{device!~'tap.*|veth.*|br.*|docker.*|virbr*|lo*'}[5m])) by (instance,job)) / 100) > 102400
for: 5m
labels:
severity: 严重告警
annotations:
summary: "{{$labels.instance}} 流入网络带宽过高，请尽快处理！"
description: "{{$labels.instance}} 流入网络带宽持续5分钟高于100M. RX带宽使用量{{$value}}."

- alert: 网络流出
expr: ((sum(rate (node_network_transmit_bytes_total{device!~'tap.*|veth.*|br.*|docker.*|virbr*|lo*'}[5m])) by (instance,job)) / 100) > 102400
for: 5m
labels:
severity: 严重告警
annotations:
summary: "{{$labels.instance}} 流出网络带宽过高,请尽快处理！"
description: "{{$labels.instance}} 流出网络带宽持续5分钟高于100M. RX带宽使用量{$value}}."

- alert: TCP连接数
expr: node_netstat_Tcp_CurrEstab > 9000
for: 2m
labels:
severity: 严重告警
annotations:
summary: " TCP_ESTABLISHED过高！"
description: "{{$labels.instance}} TCP_ESTABLISHED大于90%,当前使用率{{ $value }}%."

- alert: 磁盘容量
expr: 100-(node_filesystem_free_bytes{fstype=~"ext4|xfs"}/node_filesystem_size_bytes {fstype=~"ext4|xfs"}*100) > 95
for: 1m
labels:
severity: 严重告警
annotations:
summary: "{{$labels.mountpoint}} 磁盘分区使用率过高，请尽快处理！"
description: "{{$labels.instance}} 磁盘分区使用大于95%，当前使用率{{ $value }}%."

- alert: 平台端口异常告警
expr: probe_success == 0
for: 1m
labels:
severity: 严重告警
annotations:
summary: port down (instance {{ $labels.instance }})
description: "saas平台端口异常
端口状态 == {{ $value }} down
端口服务 == {{ $labels.tag }}"

标签：node,labels,summary,instance,promethues,规则,告警,使用率
From： https://www.cnblogs.com/xgsh/p/17416104.html

svg 绘制不规则得图形
svg如何绘制不规则的图形？一般公司有ui，将图像下载未svg格式，在网页打开将代码复制下来，直接在网页中使用即可也可以自己在ps或者其他的绘图工具中绘制，保存格式选择svg就行，后面操作方法相同......
prometheus告警处理 altermanager
prometheus告警处理altermanager一.告警简介1.工作流程prometheus收集监测的信息prometheus.yml文件中定义rules文件，rules里包含告警信息prometheus把告警信息push给altermanager，alertmanager里定义收件人和发件人altermanager发送文件到邮箱或微信2.告警生命......
低版本Grafana使用原生webhook实现企业微信告警
公司现有生产环境普遍使用的还是Grafana7版本，而Grafana9版本才支持企业微信告警。钉钉倒是支持，但是公司不用钉钉，不想就为了这个下一个软件。且Grafana的版本升级太激进，每个大版本之间的差异巨大，我也不想升级，于是另辟蹊径，整了个脚本接收Grafana的POST请求，把请求内容发送到我的企业......
CentOS系统的/tmp目录自动清理规则
CentOS系统的/tmp目录自动清理规则1、CentOS7CentOS7下，系统使用systemd管理易变与临时文件，与之相关的系统服务有3个：systemd-tmpfiles-setup.service：CreateVolatileFilesandDirectoriessystemd-tmpfiles-setup-dev.service：Createstaticdevicenodesin/devsystemd-tmpf......
tps计算规则
1、普通计算方法计算公式：TPS=总请求数/总时间按照需求所示，在2019年第32周，有4.13万的浏览量，那么总请求数，我们可以认为估算为4.13万（1次浏览都至少对应1个请求）总请求数=4.13万请求数=41300请求数总时间：由于不知道每个请求的具体时间，我们按照普通方法，我们可以按照一周的时间......
记录一次全局异常告警@ExceptionHandler和HandlerExceptionResolver的问题
最近有同事说之前写的全局异常告警，如果有@Valid的注解，在接入新写的插件告警后，返回信息不打印了。全局异常是基于@ExceptionHandler的全局异常类，主要是ServletMVC的ModelAndView返回的错误信息的捕获。代码如下： /***@authorxxx*/@RestControlle......
wazuh告警通过webhook推送到飞书
使用wazuh自带的shuffle脚本实现步骤：1.进入：/var/ossec/integrations复制shuffle、shuffle.py两个文件，并重命名为：custom-feishu、custom-feishu.py备注：一定要按这个方式命名，自定义告警前，都要加custom2.编辑custom-feishu.py，修改generate_msg函数： 3.如果想看告警......
玩转Zabbix智能告警：降噪、排班、认领、升级、IM协同
Zabbix作为一款流行的企业级监控工具，可以监控各种网络设备和服务的状态，并提供强大的告警功能，能够在出现异常情况时及时通知管理员。以下是Zabbix的一些特点：支持多种监控方式，包括SNMP、JMX、IPMI等，可以监控各种网络设备、服务器、虚拟化平台等；提供了丰富的监控项和模板，可以轻松......
【Java】定时器CronExpression参数规则
参考：定时器CronExpression配置说明详解-心和梦的方向-博客园(cnblogs.com) 项目中经常要使用到定时器，其中CronExpression配置非常重要。现在就配置说明详细解说一下：CronExpression表达式是由6个必需字段（秒、分、时、日、月、周）和一个可选字段（年）通过空格组成。cronExpres......
m基于matlab的模糊控制器仿真实现,采用matlab编程方式定义模糊规则,隶属函数等
1.算法仿真效果matlab2022a仿真结果如下： 2.算法涉及理论知识概要利用模糊数学的基本思想和理论的控制方法。在传统的控制领域里，控制系统动态模式的精确与否是影响控制优劣的最主要关键。系统动态的信息越详细，则越能达到精确控制的目的。 ......

promethues常见告警规则

相关文章

赞助商

阅读排行