首页 > 其他分享 >prometheus.rules模板

prometheus.rules模板

时间:2023-12-13 16:22:17浏览次数:35  
标签:node nodename rules expr labels job instance prometheus 模板

groups:

  • name: 服务器告警
    rules:
    • alert: 服务器宕机告警
      expr: up == 0
      for: 3m
      annotations:
      summary: "Alerting {{$labels.instance}}宕机!"
      description: "环境{{$labels.job}} 服务器{{$labels.instance}}已宕机!"
    • alert: cpu使用率过高告警
      expr: (100 - (avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by(instance)* 100))* on(instance) group_left(nodename) (node_uname_info) > 85
      for: 5m
      annotations:
      summary: "Alerting环境{{$labels.job}} {{$labels.instance}}({{$labels.nodename}})CPU使用率过高!"
      description: '服务器{{$labels.instance}}({{$labels.nodename}})CPU使用率超过85%(目前使用:{{printf "%.2f" $value}}%)'
    • alert: 系统负载过高
      expr: (node_load1/count without (cpu, mode) (node_cpu_seconds_total{mode="system"}))* on(instance) group_left(nodename) (node_uname_info)>4
      for: 3m
      annotations:
      summary: "Alerting环境{{$labels.job}} {{$labels.instance}}({{$labels.nodename}})系统负载过高!"
      description: '{{$labels.instance}}({{$labels.nodename}})当前负载超标率 {{printf "%.2f" $value}}'
    • alert: 内存不足告警
      expr: (100 - node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes * 100)* on(instance) group_left(nodename) (node_uname_info) > 88
      for: 3m
      annotations:
      summary: "Alerting环境{{$labels.job}} {{$labels.instance}}({{$labels.nodename}})内存使用率过高!"
      description: '服务器{{$labels.instance}}({{$labels.nodename}})内存使用率超过80%(目前使用:{{printf "%.2f" $value}}%)'
    • alert: 硬盘空间不足告警
      expr: (100-(node_filesystem_free_bytes{fstype=~"ext4|xfs"}/node_filesystem_size_bytes {fstype=~"ext4|xfs"}100) ) on(instance) group_left(nodename) (node_uname_info)> 85
      for: 3m
      annotations:
      summary: "Alerting环境{{$labels.job}} {{$labels.instance}}({{$labels.nodename}})硬盘使用率过高!"
      description: '服务器{{$labels.instance}}({{$labels.nodename}})硬盘使用率超过80%(目前使用:{{printf "%.2f" $value}}%)'
    • alert: TCP连接数

      expr: node_netstat_Tcp_CurrEstab > 1000

      expr: (node_netstat_Tcp_CurrEstab)* on(instance) group_left(nodename) (node_uname_info) > 1000
      for: 2m
      annotations:
      summary: "Alerting环境{{$labels.job}} {{$labels.instance}} TCP ESTABLISHED连接数过高!"
      description: "{{$labels.instanceJ}} TCP_ESTABLISHED当前连接数{[ $value }"
      groups:
  • name: Docker pod
    rules:
    • alert: DockerInstanceDown
      expr: container_last_seen{image!="",id!=""} == 0
      for: 1m
      annotations:
      description: '{{ $value.name }} {{ $labels.nodename }} of job {{ $labels.job }} has been down for more than 5 s.'
      summary: 'Instance {{ $labels.instance }} down'

标签:node,nodename,rules,expr,labels,job,instance,prometheus,模板
From: https://www.cnblogs.com/wangchengshi/p/17899309.html

相关文章

  • 实验6 模板类、文件I/O和异常处理
    实验任务1源代码:#pragmaonce#include<iostream>#include<stdexcept>//复数模板类声明template<typenameT>classComplex{public:Complex(Tr=0,Ti=0):real{r},imag{i}{}Complex(constComplex<T>&c):real{c.real},im......
  • 搭建grafana,接入prometheus展示数据
    搭建grafana,接入prometheus展示数据一、搭建grafana1、下载grafana二进制包wgethttps://dl.grafana.com/enterprise/release/grafana-enterprise-10.2.0.linux-amd64.tar.gz 2、解压到/opt目录,配置软连接tarzxfgrafana-enterprise-10.2.0.linux-amd64.tar.gz......
  • kubesphere 的 流水线maven 模板缺少 kubectl解决
    最开始解决方案是maven的pod里通过在线下载kubectl命令 发现每次构建后端服务,都去官网下载kubectl命令相当慢。既然用到maven模板,遂将master节点的kubectl命令通过hostpath挂载到maven的pod模板里面。问题解决。 agent模板cm配置【jenkins-casc-config】在【kubes......
  • 教你使用Prometheus-Operator进行K8s集群监控
    本文分享自华为云社区《Promethues-operator入门使用指导》,作者:可以交个朋友。一、背景在非operator配置的普罗中我们监控k8s集群都是通过配置configmap进行服务发现和指标拉取。切换到prometheus-operator难免会有些使用问题。不少用户已经习惯底层配置自动发现的方式。当过渡......
  • 谈一下next()在上面的场景中的作用,以及在odoo14中py3o打印模板中的适用场景。
    next()函数在Python中的主要作用是从可迭代对象中返回满足条件的第一个元素,或者在没有满足条件的元素时返回默认值。在上述场景中,next()用于在objects.additional_line中查找满足条件'预付款'inline.name的第一个元素的price_total属性,如果没有满足条件的元素,则返回默认......
  • prometheus监控k8s集群node节点/linux操作系统
    prometheus监控k8s集群node节点/linux操作系统 一、监控linux操作系统1、下载二进制包wgethttps://github.com/prometheus/node_exporter/releases/download/v1.7.0/node_exporter-1.7.0.linux-amd64.tar.gz2、解压,移动至/opt并做软连接tarzxfnode_expo......
  • 前端: 1.解构表达式;2字符串模板
      解构表达式,定义一个数组 <script> //解构表达式,定义一个数组//数组解构  letarr=[1,2,3];  let[a,b,c] =arr; //快速的将内容赋值到指定的变量上面  //const[a,b,c]=arr;  console.log(a,b,c)    //对象解构   ......
  • 拓扑排序模板
    #include<bits/stdc++.h>usingnamespacestd;structtoposort{ vector<vector<int>>e; vector<int>tp,din; intn; toposort(){} toposort(intn){ this->n=n; din.resize(n+1); e.resize(n+1); } voidadd(int......
  • Django学习(三) 之 模板中标签的使用
    写在前面最近看到稀土掘金在搞2023年终总结征文活动,一直想尝试投稿试试,周末我就花了近一下午时间写完初稿,然后周一、周二完成精读再改稿,感觉OK,昨晚凌晨第一时间在稀土掘金投稿。结果,又发生了同样的事情。同样的文章,在博客园上、公号上阅读量很OK,在稀土掘金上就上不来。这应......
  • Prometheus 快速入门
    Prometheus&Grafana快速入门一、prometheus简介prometheus是监控多个大数据组件的监控系统。Prometheus是由SoundCloud开发的开源监控报警系统和时序列数据库(TSDB)。Prometheus使用Go语言开发,是GoogleBorgMon监控系统的开源版本。2016年由Google发起Linux基金会旗下的原生云......