Prometheus告警简介
告警能力在Prometheus的架构中被划分成两个独立的部分。如下所示,通过在Prometheus中定义AlertRule(告警规则),Prometheus会周期性的对告警规则进行计算,如果满足告警触发条件就会向Alertmanager发送告警信息。
在Prometheus中一条告警规则主要由以下几部分组成:
- 告警名称:用户需要为告警规则命名,当然对于命名而言,需要能够直接表达出该告警的主要内容
- 告警规则:告警规则实际上主要由PromQL进行定义,其实际意义是当表达式(PromQL)查询结果持续多长时间(During)后出发告警
在Prometheus中,还可以通过Group(告警组)对一组相关的告警进行统一定义。当然这些定义都是通过YAML文件来统一管理的。
Alertmanager作为一个独立的组件,负责接收并处理来自Prometheus Server(也可以是其它的客户端程序)的告警信息。Alertmanager可以对这些告警信息进行进一步的处理,比如当接收到大量重复告警时能够消除重复的告警信息,同时对告警信息进行分组并且路由到正确的通知方,Prometheus内置了对邮件,Slack等多种通知方式的支持,同时还支持与Webhook的集成,以支持更多定制化的场景。
例如,目前Alertmanager还不支持钉钉,那用户完全可以通过Webhook与钉钉机器人进行集成,从而通过钉钉接收告警信息。同时AlertManager还提供了静默和告警抑制机制来对告警通知行为进行优化。
Alertmanager特性
告警能力在Prometheus的架构中被划分成两个独立的部分。如下所示,通过在Prometheus中定义AlertRule(告警规则),Prometheus会周期性的对告警规则进行计算,如果满足告警触发条件就会向Alertmanager发送告警信息。
分组
分组机制可以将详细的告警信息合并成一个通知。在某些情况下,比如由于系统宕机导致大量的告警被同时触发,在这种情况下分组机制可以将这些被触发的告警合并为一个告警通知,避免一次性接受大量的告警通知,而无法对问题进行快速定位。
例如,当集群中有数百个正在运行的服务实例,并且为每一个实例设置了告警规则。假如此时发生了网络故障,可能导致大量的服务实例无法连接到数据库,结果就会有数百个告警被发送到Alertmanager。
而作为用户,可能只希望能够在一个通知中中就能查看哪些服务实例收到影响。这时可以按照服务所在集群或者告警名称对告警进行分组,而将这些告警内聚在一起成为一个通知。
告警分组,告警时间,以及告警的接受方式可以通过Alertmanager的配置文件进行配置。
抑制
抑制是指当某一告警发出后,可以停止重复发送由此告警引发的其它告警的机制。
例如,当集群不可访问时触发了一次告警,通过配置Alertmanager可以忽略与该集群有关的其它所有告警。这样可以避免接收到大量与实际问题无关的告警通知。
抑制机制同样通过Alertmanager的配置文件进行设置。
静默
静默提供了一个简单的机制可以快速根据标签对告警进行静默处理。如果接收到的告警符合静默的配置,Alertmanager则不会发送告警通知。
静默设置需要在Alertmanager的Werb页面上进行设置。
Prometheus本身不支持告警功能,主要通过插件alertmanage来实现告警。AlertManager用于接收Prometheus发送的告警并对于告警进行一系列的处理后发送给指定的用户。
Prometheus触发一条告警的过程:
prometheus--->触发阈值--->超出持续时间--->alertmanager--->分组|抑制|静默--->媒体类型--->邮件|钉钉|微信等。
实现钉钉告警---->>准备工作
1、登录钉钉
2、创建机器人
3、获取钉钉token
4、配置钉钉webhook
5、插件下载
安装Alertmanager
1、下载Alertmanager
[root@localhost ~]# wget https://github.com/prometheus/alertmanager/releases/download/v0.20.0/alertmanager-0.20.0.linux-amd64.tar.gz
[root@localhost ~]# tar xf alertmanager-0.20.0.linux-amd64.tar.gz
[root@localhost ~]# mv alertmanager-0.20.0.linux-amd64 /usr/local/alertmanager
2、创建启动文件
[root@localhost ~]# vim /usr/lib/systemd/system/alertmanager.service
- [Unit]
- Description=alertmanager
- Documentation=https://github.com/prometheus/alertmanager
- After=network.target
- [Service]
- Type=simple
- User=root
- ExecStart=/usr/local/alertmanager/alertmanager --config.file=/usr/local/alertmanager/alertmanager.yml
- Restart=on-failure
- [Install]
- WantedBy=multi-user.target
3、配置alertmanager.yml文件
Alertmanager 安装目录下默认有 alertmanager.yml 配置文件,可以创建新的配置文件,在启动时指定即可。
[root@localhost ~]# cd /usr/local/alertmanager
[root@localhost alertmanager]# vim alertmanager.yml
- global:
- # 每2分钟检查一次是否恢复
- resolve_timeout: 2m
- # route用来设置报警的分发策略
- route:
- # 采用哪个标签来作为分组依据
- group_by: ['alertname']
- # 组告警等待时间。也就是告警产生后等待10s,如果有同组告警一起发出
- group_wait: 10s
- # 两组告警的间隔时间
- group_interval: 10s
- # 重复告警的间隔时间,减少相同微信告警的发送频率
- repeat_interval: 1h
- # 设置默认接收人
- receiver: 'webhook'
- receivers:
- - name: 'webhook'
- webhook_configs:
- - url: ‘http://localhost:8060/dingtalk/ops_dingding/send’
- send_resolved: true
注意:http://localhost:8060/dingtalk/ops_dingding/send,其中ops_dingding是当时运行prometheus-webhook-dingtalk指定钉钉接口参数的变量:ops_dingding,如下:ops_dingding
--ding.profile="ops_dingding=https://oapi.dingtalk.com/robot/send?access_token=xxx"
4、钉钉插件下载
注:需要go环境
# YUM安装
[root@localhost ~]# yum -y install epel-release
[root@localhost ~]# yum -y install go
# 源码安装
[root@localhost ~]# wget https://studygolang.com/dl/golang/go1.14.2.linux-amd64.tar.gz
[root@localhost ~]# tar xf go1.14.2.linux-amd64.tar.gz -C /usr/local
# 配置环境变量
[root@localhost ~]# vim /etc/profile
- export GO_HOME=/usr/local/go
- export PATH=$PATH:$GO_HOME/bin
[root@localhost ~]# source /etc/profile
[root@localhost ~]# git clone https://github.com/timonwong/prometheus-webhook-dingtalk.git
[root@localhost ~]# mv prometheus-webhook-dingtalk /usr/local/dingtalk
[root@localhost ~]# cd /usr/local/dingtalk
[root@localhost dingtalk]# wget https://dl.yarnpkg.com/rpm/yarn.repo -O /etc/yum.repos.d/yarn.repo
[root@localhost dingtalk]# yum -y install yarn
# 自带的版本太低,最低要求8及以上,默认6.17.1
[root@localhost dingtalk]# rpm -e --nodeps nodejs
# 安装nodejs(需指定版本)
[root@localhost ~]# wget https://nodejs.org/dist/v10.13.0/node-v10.13.0-linux-x64.tar.xz
[root@localhost ~]# tar xf node-v10.9.0-linux-x64.tar.xz
[root@localhost ~]# mv node-v10.13.0-linux-x64 /usr/local/nodejs
# 配置环境变量
[root@localhost ~]# vim /etc/profile
- export NODE_HOME=/usr/local/nodejs
- export PATH=$PATH:$NODE_HOME/bin
[root@localhost ~]# source /etc/profile
# 编译
[root@localhost dingtalk]# make
5、获取钉钉机器人
1)选择群组--->>群助手
2)添加机器人
3)选择自定义
4)输入机器人名字、群组、安全设置
6、启动dingtalk
注:复制Webhook地址,启动需要
# 测试钉钉告警机器人
[root@localhost dingtalk]# curl -H "Content-Type: application/json" -d '{"msgtype":"text","text":{"content":"prometheus alert test"}}' https://oapi.dingtalk.com/robot/send?access_token=xxx
{"errcode":0,"errmsg":"ok"}
# 配置系统服务
[root@localhost dingtalk]# vim /usr/lib/systemd/system/prometheus-webhook-dingtalk.service
- [Unit]
- Description=prometheus-webhook-dingtalk
- After=network-online.target
- [Service]
- Restart=on-failure
- ExecStart=/usr/local/dingtalk/prometheus-webhook-dingtalk --ding.profile=ops_dingding=https://oapi.dingtalk.com/robot/send?access_token=此处省略,输入自己的Webhook地址
- [Install]
- WantedBy=multi-user.target
[root@localhost dingtalk]# systemctl daemon-reload
[root@localhost dingtalk]# systemctl start prometheus-webhook-dingtalk
[root@localhost dingtalk]# netstat -lntup | grep 8060
7、配置告警规则
[root@localhost alertmanager]# mkdir -p /usr/local/prometheus/rules
[root@localhost alertmanager]# cd /usr/local/prometheus/rules
[root@localhost rules]# vim node.yml
- groups:
- - name: Node_Down
- rules:
- - alert: Node实例已宕机
- expr: up == 0
- for: 10s
- labels:
- user: root
- severity: Warning
- annotations:
- summary: "Instance {{ $labels.instance }} Down"
- description: "{{ $labels.instance }} of job {{ $labels.job }} has been Down."
在Prometheus.yml中指定node.yml的路径
[root@localhost rules]# vim /usr/local/prometheus/prometheus.yml
- global:
- scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
- evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
- # scrape_timeout is set to the global default (10s).
- # Alertmanager configuration
- alerting:
- alertmanagers:
- - static_configs:
- - targets: ['localhost:9093']
- # - localhost:9093
- # Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
- rule_files:
- - 'rules/node.yml'
- # - "first_rules.yml"
- # - "second_rules.yml"
- # A scrape configuration containing exactly one endpoint to scrape:
- # Here it's Prometheus itself.
- scrape_configs:
- # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
- - job_name: 'prometheus'
- static_configs:
- - targets: ['localhost:9100']
8、重启Prometheus服务
[root@localhost rules]# systemctl restart prometheus
9、启动Alertmanager
[root@localhost rules]# systemctl daemon-reload
[root@localhost rules]# systemctl start alertmanager
10、验证效果
此时访问prometheus管理界面可以看到如下信息:
11、然后停止 node_exporter 服务,然后再看效果。
[root@localhost rules]# systemctl stop node_exporter
prometheus界面的alert可以看到告警状态。
- 绿色表示正常。
- 红色状态为PENDING表示alerts还没有发送至Alertmanager,因为rules里面配置了for: 10s。
- 10秒后状态由PENDING变为FIRING,此时Prometheus才将告警发给alertmanager,在Alertmanager中可以看到有一个alert。
12、接着钉钉会收到告警信息
13、再次启动node_export
[root@localhost ~]# systemctl start node_exporter
# 钉钉会收到恢复信息
附:
CPU使用率告警规则:
- groups:
- - name: CPU
- rules:
- - alert: CPU使用率过高
- expr: (100 - (avg by (instance) (irate(node_cpu{mode="idle"}[5m])) * 100)) > 80
- for: 1m
- labels:
- severity: Warning
- annotations:
- summary: "{{ $labels.instance }} CPU使用率过高"
- description: "{{ $labels.instance }}: CPU使用率超过80%,当前使用率({{ $value }})."
内存使用率告警规则:
- groups:
- - name: Memory
- rules:
- - alert: 内存使用率过高
- expr: (node_memory_MemTotal - (node_memory_MemFree+node_memory_Buffers+node_memory_Cached )) / node_memory_MemTotal * 100 > 80
- for: 1m #告警持续时间,超过这个时间才会发送给alertmanager
- labels:
- severity: Warning
- annotations:
- summary: "{{ $labels.instance }} 内存使用率过高"
- description: "{{ $labels.instance }}:内存使用率超过80%,当前使用率({{ $value }})."