【运维监控】Prometheus+grafana+blackbox_exporter+alertmanager监控业务接口异常预警（完整版）

标签：exporter blackbox level 09 2024 prometheus 监控 go 完整版

运维监控系列文章入口：【运维监控】系列文章汇总索引

文章目录

一、prometheus部署
二、grafana部署
三、blackbox_exporter部署
四、prometheus集成blackbox_exporter
五、prometheus、grfana和blackbox_exporter集成
六、alertmanager部署与集成

本示例通过blackbox_exporter收集http/https（业务接口）、tcp、ping、dns的监控指标，然后将数据收集到prometheus中，配置预警规则，出现警告信息时通过邮件通知相关人员，同时也通过grafana的dashboard导入模板进行可视化。
本示例分为六个部分，即prometheus、grafana、blackbox_exporter部署，prometheus与blackbox_exporter集成，prometheus、blackbox_exporter与grafana集成，prometheus、blackbox_exporter与alertmanager集成。
说明：
1、本示例中的部署环境没有要求，即应用部署的机器根据实际情况而定，只要网络连通即可。
2、prometheus与alertmanager可直接集成，与blackbox_exporter无关，其只是在本示例中使用其进行一些信息的收集。

一、prometheus部署

参考：【运维监控】prometheus+node exporter+grafana 监控linux机器运行情况关于prometheus的部署。

二、grafana部署

参考：【运维监控】prometheus+node exporter+grafana 监控linux机器运行情况关于grafana的部署。

三、blackbox_exporter部署

blackbox_exporter 是 Prometheus 官方提供的官方黑盒监控解决方案，其中 exporter 之一，可以提供 http(s)、dns、tcp、icmp 的方式对网络进行探测。
目前支持的应用场景：

ICMP 测试，主机探活机制
TCP 测试，端口状态监听和应用层协议定义与监听
HTTP 测试，定义 Request Header 信息、判断 Http status / Http Respones Header / Http Body 内容
POST 测试，接口联通性
SSL 证书过期时间
自定义测试（扩展）

本服务部署在server2上。

1、下载

下载地址：https://github.com/prometheus/blackbox_exporter
下载版本：blackbox_exporter-0.25.0.linux-amd64.tar.gz

2、解压

[alanchan@server2 bigdata]$ tar xf blackbox_exporter-0.25.0.linux-amd64.tar.gz -C /usr/local/bigdata
[alanchan@server2 blackbox_exporter-0.25.0.linux-amd64]$ pwd
/usr/local/bigdata/blackbox_exporter-0.25.0.linux-amd64
[alanchan@server2 blackbox_exporter-0.25.0.linux-amd64]$ ll
total 21124
-rwxr-xr-x 1 alanchan root 21606608 Apr  9 12:59 blackbox_exporter
-rw-r--r-- 1 alanchan root     1404 Sep 11 06:46 blackbox.yml
-rw-r--r-- 1 alanchan root    11357 Apr  9 13:00 LICENSE
-rw-r--r-- 1 alanchan root       94 Apr  9 13:00 NOTICE

3、启动

blackbox.yml的默认配置文件内容如下。可以根据自己的需要进行修改或保持默认。

[alanchan@server2 blackbox_exporter-0.25.0.linux-amd64]$ cat blackbox.yml 
modules:
  http_2xx: # 模块名称,prometheus配置文件中要匹配
    prober: http # 协议
    http: # 模块的采集协议
      preferred_ip_protocol: "ip4" # 使用的ipv4协议 

  http_post_2xx:
    prober: http
    http:
      method: POST # http请求的方法
      # headers:   # 配置post请求的header头 
      # Content-Type: application/json 
      # body: ''{"username": "alanchanchn", "password": "123456"}'' # post请求参数
  tcp_connect:
    prober: tcp
  pop3s_banner:
    prober: tcp
    tcp:
      query_response:
      - expect: "^+OK"
      tls: true
      tls_config:
        insecure_skip_verify: false
  grpc:
    prober: grpc
    grpc:
      tls: true
      preferred_ip_protocol: "ip4"
  grpc_plain:
    prober: grpc
    grpc:
      tls: false
      service: "service1"
  ssh_banner:
    prober: tcp
    tcp:
      query_response:
      - expect: "^SSH-2.0-"
      - send: "SSH-2.0-blackbox-ssh-check"
  irc_banner:
    prober: tcp
    tcp:
      query_response:
      - send: "NICK prober"
      - send: "USER prober prober prober :prober"
      - expect: "PING :([^ ]+)"
        send: "PONG ${1}"
      - expect: "^:[^ ]+ 001"
  icmp:
    prober: icmp
  icmp_ttl5:
    prober: icmp
    timeout: 5s
    icmp:
      ttl: 5

启动命令如下。

[alanchan@server2 blackbox_exporter-0.25.0.linux-amd64]$ ll
total 21124
-rwxr-xr-x 1 alanchan root 21606608 Apr  9 12:59 blackbox_exporter
-rw-r--r-- 1 alanchan root      956 Apr  9 13:00 blackbox.yml
-rw-r--r-- 1 alanchan root    11357 Apr  9 13:00 LICENSE
-rw-r--r-- 1 alanchan root       94 Apr  9 13:00 NOTICE
[alanchan@server2 blackbox_exporter-0.25.0.linux-amd64]$ blackbox_exporter 
ts=2024-09-11T06:45:43.194Z caller=main.go:87 level=info msg="Starting blackbox_exporter" version="(version=0.25.0, branch=HEAD, revision=ef3ff4fef195333fb8ee0039fb487b2f5007908f)"
ts=2024-09-11T06:45:43.194Z caller=main.go:88 level=info build_context="(go=go1.22.2, platform=linux/amd64, user=root@47d5b0d99f18, date=20240409-12:58:39, tags=unknown)"
ts=2024-09-11T06:45:43.194Z caller=main.go:91 level=error msg="Error loading config" err="error parsing config file: yaml: unmarshal errors:\n  line 52: mapping key \"modules\" already defined at line 1"
[alanchan@server2 blackbox_exporter-0.25.0.linux-amd64]$ blackbox_exporter 
ts=2024-09-11T06:46:08.036Z caller=main.go:87 level=info msg="Starting blackbox_exporter" version="(version=0.25.0, branch=HEAD, revision=ef3ff4fef195333fb8ee0039fb487b2f5007908f)"
ts=2024-09-11T06:46:08.036Z caller=main.go:88 level=info build_context="(go=go1.22.2, platform=linux/amd64, user=root@47d5b0d99f18, date=20240409-12:58:39, tags=unknown)"
ts=2024-09-11T06:46:08.036Z caller=main.go:100 level=info msg="Loaded config file"
ts=2024-09-11T06:46:08.037Z caller=tls_config.go:313 level=info msg="Listening on" address=[::]:9115
ts=2024-09-11T06:46:08.037Z caller=tls_config.go:316 level=info msg="TLS is disabled." http2=false address=[::]:9115

4、验证

正常启动后，可在浏览器中输入http://server2:9115/，查看信息，界面如下。
在这里插入图片描述
刚启动应该是没有数据的。至此，blackbox_exporter部署完成。

四、prometheus集成blackbox_exporter

1、添加prometheus监控规则

命名blackbox_exporter.yml，其内容如下

groups:
- name: Blackbox_alanchan
  rules:
  - alert:blackbox探测失败警告
    expr: probe_success == 0
    for: 1m
    labels:
      severity: critical
    annotations:
      summary: "blackbox探测失败{{ $labels.instance }}"
      description: "blackbox检测失败，当前值：{{ $value }}"
      
  - alert: 请求慢预警
    expr: avg_over_time(probe_duration_seconds[1m]) > 3
    for: 1m
    labels:
      severity: warning
    annotations:
      summary: "请求慢{{ $labels.instance }}"
      description: "请求时间超过3秒，值为：{{ $value }}"
      
  - alert: http状态码检测失败
    expr: probe_http_status_code <= 199 OR probe_http_status_code >= 400
    for: 1m
    labels:
      severity: critical
    annotations:
      summary: "http状态码检测失败{{ $labels.instance }}"
      description: "HTTP状态码不在 200-399 区间，当前状态码是{{ $value }}"

Prometheus alert 预警状态有三种状态：Inactive、Pending、Firing。

Inactive：非活动状态，表示正在监控，但是还未有任何警报触发。
Pending：已触发阈值，但未满足告警持续时间（即rule中的for字段）。由于警报可以被分组、抑制或静默，所以等待验证，一旦所有的验证都通过，则将转到 Firing 状态。
Firing：将警报发送到 AlertManager，它将按照配置将警报的发送给所有接收者。一旦警报解除，则将状态转到 Inactive，如此循环。

Prometheus支持两种类型的规则，即记录规则和警报规则。它们可以进行配置，然后定期进行评估。要将规则包含在Prometheus中，需要先创建一个包含必要规则的文件，并让Prometheus通过Prometheus配置中的rule_fies字段加载该文件。默认情况下，prometheus的规则文件使用YAML。
规则的使用流程如下：

创建一个满足规则标准的规则
发送SIGHUP给Prometheus进程，prometheus在运行时重新加载规则文件，从而让规则在prometheus运行环境中生效。

规则文件的语法

groups:
 [ - <rule_group> ]

规则文件属性

name 规则组名，必须是唯一的
interval 定制规则执行的间隔时间
rules 设定规则具体信息
  record 定制指标的名称
  expr 执行成功的PromQL
  labels 为该规则设定标签

示例

groups:
- name: Blackbox_alanchan
  rules:
  - alert: blackbox探测失败警告 #自定义预警的动作名称
    expr: probe_success == 0
    for: 1m # expr动作触发后，持续的时间，达到该条件就会预警
    labels:
      severity: critical # 预警级别
    annotations: # 注释信息，注释信息中的变量需要从模板中或者系统中读取
      summary: "blackbox探测失败{{ $labels.instance }}"
      description: "blackbox检测失败，当前值：{{ $value }}"

规则语法检测命令

promtool check rules /usr/local/bigdata/prometheus-2.54.0.linux-amd64/rules/blackbox_exporter.yml

2、添加prometheus的预警规则

去掉prometheus.yml中关于预警规则的注释，修改内容为如下。具体视环境而定，下文是作者的规则文件存放目录。

rule_files:
  - "/usr/local/bigdata/prometheus-2.54.0.linux-amd64/rules/blackbox_exporter.yml"

添加好的预警规则可以在http://server2:9090/rules中查看，示例如下。
在这里插入图片描述

3、添加prometheus的监控信息收集

在prometheus.yml中添加如下信息。

scrape_configs:
# blackbox 
 #http配置
  - job_name: "blackbox_http"
    metrics_path: /probe
    params:
      module: [http_2xx]
    static_configs:
      - targets:
        - https://www.baidu.com
        - http://192.168.3.105:8080/test/example/test.json 
        - http://192.168.3.105:8080/test/example
        - https://github.com/prometheus/blackbox_exporter
    relabel_configs:
      - source_labels: [__address__]
        target_label: __param_target
      - source_labels: [__param_target]
        target_label: instance
      - target_label: __address__
        replacement: server2:9115  # blackbox安装在哪台机器

 #tcp检查配置
  - job_name: "blackbox_tcp"
    metrics_path: /probe
    params:
      module: [tcp_connect]
    static_configs:
      - targets: 
        - server8:22
        - server2:9090
    relabel_configs:
      - source_labels: [__address__]
        target_label: __param_target
      - source_labels: [__param_target]
        target_label: instance
      - target_label: __address__
        replacement: server2:9115

 #icmp检查配置 ping
  - job_name: "blackbox_icmp"
    metrics_path: /probe
    params:
      module: [icmp]
    static_configs:
      - targets: 
        - 192.168.10.71
        - 192.168.10.118
    relabel_configs:
      - source_labels: [__address__]
        target_label: __param_target
      - source_labels: [__param_target]
        target_label: instance
      - target_label: __address__
        replacement: server2:9115

4、重启prometheus

[alanchan@server2 prometheus-2.54.0.linux-amd64]$ ./prometheus 
ts=2024-09-12T05:50:17.005Z caller=main.go:601 level=info msg="No time or size retention was set so using the default time retention" duration=15d
ts=2024-09-12T05:50:17.005Z caller=main.go:645 level=info msg="Starting Prometheus Server" mode=server version="(version=2.54.0, branch=HEAD, revision=5354e87a70d3eb26b81b601b286d66ff983990f6)"
ts=2024-09-12T05:50:17.005Z caller=main.go:650 level=info build_context="(go=go1.22.6, platform=linux/amd64, user=root@68a9e2472a68, date=20240809-11:36:32, tags=netgo,builtinassets,stringlabels)"
ts=2024-09-12T05:50:17.005Z caller=main.go:651 level=info host_details="(Linux 2.6.32-754.35.1.el6.x86_64 #1 SMP Sat Nov 7 12:42:14 UTC 2020 x86_64 server2 (none))"
ts=2024-09-12T05:50:17.005Z caller=main.go:652 level=info fd_limits="(soft=131072, hard=131072)"
ts=2024-09-12T05:50:17.005Z caller=main.go:653 level=info vm_limits="(soft=unlimited, hard=unlimited)"
ts=2024-09-12T05:50:17.009Z caller=web.go:571 level=info component=web msg="Start listening for connections" address=0.0.0.0:9090
ts=2024-09-12T05:50:17.009Z caller=main.go:1160 level=info msg="Starting TSDB ..."

ts=2024-09-12T05:50:17.012Z caller=tls_config.go:313 level=info component=web msg="Listening on" address=[::]:9090
ts=2024-09-12T05:50:17.012Z caller=tls_config.go:316 level=info component=web msg="TLS is disabled." http2=false address=[::]:9090
ts=2024-09-12T05:50:17.027Z caller=head.go:626 level=info component=tsdb msg="Replaying on-disk memory mappable chunks if any"
ts=2024-09-12T05:50:17.036Z caller=head.go:713 level=info component=tsdb msg="On-disk memory mappable chunks replay completed" duration=9.269999ms
ts=2024-09-12T05:50:17.036Z caller=head.go:721 level=info component=tsdb msg="Replaying WAL, this may take a while"
ts=2024-09-12T05:50:17.048Z caller=head.go:758 level=info component=tsdb msg="WAL checkpoint loaded"

ts=2024-09-12T05:50:17.483Z caller=head.go:830 level=info component=tsdb msg="WAL replay completed" checkpoint_replay_duration=11.904575ms wal_replay_duration=435.015809ms wbl_replay_duration=158ns chunk_snapshot_load_duration=0s mmap_chunk_replay_duration=9.269999ms total_replay_duration=456.234198ms
ts=2024-09-12T05:50:17.487Z caller=main.go:1181 level=info fs_type=EXT4_SUPER_MAGIC
ts=2024-09-12T05:50:17.487Z caller=main.go:1184 level=info msg="TSDB started"
ts=2024-09-12T05:50:17.488Z caller=main.go:1367 level=info msg="Loading configuration file" filename=prometheus.yml
ts=2024-09-12T05:50:17.490Z caller=main.go:1404 level=info msg="updated GOGC" old=100 new=75
ts=2024-09-12T05:50:17.490Z caller=main.go:1415 level=info msg="Completed loading of configuration file" filename=prometheus.yml totalDuration=2.770824ms db_storage=7.513µs remote_storage=4.818µs web_handler=941ns query_engine=3.672µs scrape=412.441µs scrape_sd=261.046µs notify=44.541µs notify_sd=10.73µs rules=1.118939ms tracing=13.933µs
ts=2024-09-12T05:50:17.490Z caller=main.go:1145 level=info msg="Server is ready to receive web requests."
ts=2024-09-12T05:50:17.491Z caller=manager.go:164 level=info component="rule manager" msg="Starting rule manager..."

启动成功后，可以通过下面验证部分进行验证。

5、验证

验证分为2个部分，即添加的预警规则是否正常显示以及监控的信息是否收集到。添加的监控信息如下图可以看到已经加载进来。
在这里插入图片描述
可以通过prometheus的预警按钮查看，如下图。由于监控的服务没有启动，所以会出现预警。

点击详细进去可以看看，如下图。

启动我们提前创建好的接口服务，再观察监控的情况。
接口服务为简单的2个spring boot创建的restful接口，其中一个接口设置延迟时间600毫秒。
另外，我们监控的192.168.10.71机器不存在，49机器不能访问。
在这里插入图片描述
以上就完成了prometheus和blackbox_expoerter监控http协议的接口、tcp的连接等操作了，并可进行预警。

五、prometheus、grfana和blackbox_exporter集成

在完成前四步操作后，我们基本上已经完成了主要监控功能，如果我们想更加直观的展示更多的信息，我们可以将grafana集成进来。
集成grafana需要先添加数据源、导入模板，本示例导入的模板ID是13659（blackbox-exporter-http-prober），导入成功后，数据展示图如下。
在这里插入图片描述
以上五步完成后，我们完成了监控信息的预警、展示，基本上能满足使用需要了。一般可能需要增加出现了警告信息能通知到具体的人，如此则需要使用prometheus的警告服务了。

六、alertmanager部署与集成

该服务是prometheus的警告服务，出现警告信息后可给相关人员发送邮件等告知信息。下面就在上面五步的基础上进行alertmanager的集成。当然，也可以不集成grafana直接在前四步的基础上进行集成，也可以直接在grafana的系统中完成警告信息的邮件发送等功能。
本服务部署在server2上。

1、下载

可以在prometheus下载页面直接找到alertmanager下载链接。
下载版本：alertmanager-0.27.0.linux-amd64.tar.gz

2、解压

[alanchan@server2 ~]$ cd /usr/local/bigdata
[alanchan@server2 bigdata]$ tar xf alertmanager-0.27.0.linux-amd64.tar.gz -C /usr/local/bigdata
[alanchan@server2 bigdata]$ cd alertmanager-0.27.0.linux-amd64
[alanchan@server2 alertmanager-0.27.0.linux-amd64]$ ll
total 65916
-rwxr-xr-x 1 alanchan root 37345962 Feb 28  2024 alertmanager
-rw-r--r-- 1 alanchan root      356 Feb 28  2024 alertmanager.yml
-rwxr-xr-x 1 alanchan root 30130103 Feb 28  2024 amtool
-rw-r--r-- 1 alanchan root    11357 Feb 28  2024 LICENSE
-rw-r--r-- 1 alanchan root      457 Feb 28  2024 NOTICE

3、启动

解压完成后，alertmanager的默认配置文件alertmanager.yml内容如下

[alanchan@server2 alertmanager-0.27.0.linux-amd64]$ cat alertmanager.yml 
route:
  group_by: ['alertname']
  group_wait: 30s
  group_interval: 5m
  repeat_interval: 1h
  receiver: 'web.hook'
receivers:
  - name: 'web.hook'
    webhook_configs:
      - url: 'http://127.0.0.1:5001/'
inhibit_rules:
  - source_match:
      severity: 'critical'
    target_match:
      severity: 'warning'
    equal: ['alertname', 'dev', 'instance']

由于我们的目标是将预警信息发送至邮件，所以我们需要配置将配置文件alertmanager.yml改成如下内容。

global:
  resolve_timeout: 5m
  smtp_from: 'alan.chan.chn@163.com' # 发送者邮箱
  smtp_smarthost: 'smtp.163.com:465' #需要登录邮箱系统，设置开启 POP3/SMTP 服务
  smtp_auth_username: 'alan.chan.chn@163.com'
  smtp_auth_password: 'CXFZQSXTYTxxxxxFU'# 这个是在开启stmp服务的时候由邮箱服务器自动生成的授权码
  smtp_require_tls: false # 是否使用 tls，视环境情况来选择开启和关闭。报错 email.loginAuth failed: 530 Must issue a STARTTLS command first，就需要设置为 true。如果开启了 tls报错 starttls failed: x509: certificate signed by unknown authority，需要在 email_configs 下配置 insecure_skip_verify: true 来跳过 tls 验证。
  smtp_hello: '163.com'
route:
  group_by: ['alertname']
  group_wait: 5s
  group_interval: 5s
  repeat_interval: 6m #repeat_inerval配置项，用于降低告警收敛，减少报警，发送关键报警，对于email来说，此项不可以设置过低，否则将会由于邮件发送太多频繁，被smtp服务器拒绝
  receiver: 'email'
receivers:
- name: 'email'
  email_configs:
  - to: 'alanchanchn@163.com'
    send_resolved: true
inhibit_rules:
  - source_match:
      severity: 'critical'
    target_match:
      severity: 'warning'
    equal: ['alertname', 'dev', 'instance']

然后启动alertmanager服务，启动信息如下。

[alanchan@server2 alertmanager-0.27.0.linux-amd64]$ alertmanager 
ts=2024-09-11T08:05:24.114Z caller=main.go:181 level=info msg="Starting Alertmanager" version="(version=0.27.0, branch=HEAD, revision=0aa3c2aad14cff039931923ab16b26b7481783b5)"
ts=2024-09-11T08:05:24.114Z caller=main.go:182 level=info build_context="(go=go1.21.7, platform=linux/amd64, user=root@22cd11f671e9, date=20240228-11:51:20, tags=netgo)"
ts=2024-09-11T08:05:24.115Z caller=cluster.go:186 level=info component=cluster msg="setting advertise address explicitly" addr=192.168.10.42 port=9094
ts=2024-09-11T08:05:24.116Z caller=cluster.go:683 level=info component=cluster msg="Waiting for gossip to settle..." interval=2s
ts=2024-09-11T08:05:24.146Z caller=coordinator.go:113 level=info component=configuration msg="Loading configuration file" file=alertmanager.yml
ts=2024-09-11T08:05:24.147Z caller=coordinator.go:126 level=info component=configuration msg="Completed loading of configuration file" file=alertmanager.yml
ts=2024-09-11T08:05:24.150Z caller=tls_config.go:313 level=info msg="Listening on" address=[::]:9093
ts=2024-09-11T08:05:24.150Z caller=tls_config.go:316 level=info msg="TLS is disabled." http2=false address=[::]:9093
ts=2024-09-11T08:05:26.116Z caller=cluster.go:708 level=info component=cluster msg="gossip not settled" polls=0 before=0 now=1 elapsed=2.000435063s
ts=2024-09-11T08:05:34.118Z caller=cluster.go:700 level=info component=cluster msg="gossip settled; proceeding" elapsed=10.001893362s
^Cts=2024-09-11T08:36:32.702Z caller=main.go:542 level=info msg="Received SIGTERM, exiting gracefully..."

4、添加prometheus的预警配置

修改prometheus.yml配置增加，取消注释，并修改target为alertmanager服务所在的地址，示例如下。

# Alertmanager configuration
alerting:
  alertmanagers:
    - static_configs:
        - targets:
           - server2:9093

重启prometheus服务。启动成功后，可通过以下示例页面（页面最下方）查看配置的alertmanager服务。
在这里插入图片描述

5、验证

alertmanager服务的默认端口是9093，通过浏览器访问server2:9093，可见如下界面，则表示成功。
在这里插入图片描述
如果有告警信息后，则该界面显示告警信息，如下

有预警信息的同时，如果你的有邮箱配置正的话，应该会收到预警信息的邮件，如下图所示。

如果我们将自己创建的接口服务关闭，报警信息如下。
在这里插入图片描述
我们将接口服务中的一个接口延迟60秒，看看邮件预警信息如下。

grafana的dashboard显示内容如下。