首页 > 其他分享 >Prometheus监控zookeeper集群(1)

Prometheus监控zookeeper集群(1)

时间:2023-04-14 16:23:02浏览次数:45  
标签:zookeeper zk labels summary instance Prometheus exporter 集群

因为zookeeper版本较低为3.4.x版本,所有采用zookeeper_exporter方式采集数据

1.下载(zookeeper_exporter采集器)

https://github.com/carlpett/zookeeper_exporter/releases/download/v1.1.0/zookeeper_exporter

2. 传到liunx上/opt目录下,没有目录可以自行创建

3.授予权限

chmod 755 zookeeper_exporter

4.编写zookeeper_exporter监控脚本(集群每台都跑)

vim /lib/systemd/system/zkexporter.service

    [Unit]
    Description=zookeeper_exporter
    After=network.target
    [Service]
    Type=simple
    User=root
    ExecStart=/opt/zookeeper_exporter -zookeeper 10.249.0.63:2181 -bind-addr :9143
    Restart=on-failure
    [Install]
    WantedBy=multi-user.target

5.分别执行如下启动命令

systemctl start zkexporter.service
systemctl status zkexporter.service

6.查看zookeeper_exporter运行状态(如出现Active: active (running) 已经运行成功)

7.查看采集数据

curl localhost:9143/metrics

8.修改 Prometheus 的配置文件 (prometheus.yml)

9.重启Prometheus ,访问http://localhost:9090

如上所示,当 State 状态显示为 UP 时,则说明 zookeeper_exporter 服务已经集成进来了

10.rule告警文件(仅供参考):

    groups:
    - name: zookeeperStatsAlert
      rules:
      - alert: 堆积请求数过大
        expr: avg(zk_outstanding_requests) by (instance) > 10    
        for: 1m
        labels:      
          severity: critical
        annotations:
          summary: "Instance {{ $labels.instance }} "
          description: "积请求数过大"
      - alert: 阻塞中的 sync 过多
        expr: avg(zk_pending_syncs) by (instance) > 10
        for: 1m
        labels:
          severity: critical
        annotations:
          summary: "Instance {{ $labels.instance }} "
          description: "塞中的 sync 过多"
      - alert: 平均响应延迟过高
        expr: avg(zk_avg_latency) by (instance) > 10
        for: 1m
        labels:
          severity: critical
        annotations:
          summary: "Instance {{ $labels.instance }} "
          description: '平均响应延迟过高'
      - alert: 打开文件描述符数大于系统设定的大小
        expr: zk_open_file_descriptor_count > zk_max_file_descriptor_count * 0.85
        for: 1m
        labels:
          severity: critical
        annotations:
          summary: "Instance {{ $labels.instance }} "
          description: '打开文件描述符数大于系统设定的大小'
      - alert: zookeeper服务器宕机
        expr: up{job="prd_zookeeper"} == 0
        for: 5s
        labels:
          severity: critical
        annotations:
          summary: "Instance {{ $labels.instance }} "
          description: 'zookeeper服务器宕机'
      - alert: zk主节点丢失
        expr: absent(zk_server_state{state="leader"})  != 1
        for: 1m
        labels:
          severity: critical
        annotations:
          summary: "Instance {{ $labels.instance }} "
          description: 'zk主节点丢失'

11.配置grafana

grafanaid: 11442

标签:zookeeper,zk,labels,summary,instance,Prometheus,exporter,集群
From: https://www.cnblogs.com/zmh520/p/17318628.html

相关文章

  • zookeeper集群安装
    解压zookeeper[root@masterpack]#tar-zxvfzookeeper-3.4.10.tar.gz-C/usr/local/src/配置环境变量#ZOOKEEPER_HOMEexportZOOKEEPER_HOME=/usr/local/src/zookeeperexportPATH=$PATH:$ZOOKEEPER_HOME/bin创建data文件用于存放数据信息创建logs文件用于存放日志......
  • hadoop伪分布式集群的安装(不是单机版)
    准备工作三台虚拟机,关闭防火墙,关闭selinux查看防火状态systemctlstatusfirewalld暂时关闭防火墙systemctlstopfirewalld永久关闭防火墙systemctldisablefirewalld查看selinux状态getenforce暂时关闭selinuxsetenforce0永久关闭selinux在/etc/selinux/confi......
  • Prometheus 长期存储方案对比
    一文读懂Prometheus长期存储主流方案Prometheus作为云原生时代崛起的标志性项目,已经成为可观测领域的事实标准。Prometheus是单实例不可扩展的,那么如果用户需要采集更多的数据并且保存更长时间该选择怎样的长期存储方案呢?2022年8月9日,在CSDN云原生系列在线峰会第......
  • WGCLOUD和 Prometheus 两款服务器运维监测软件比较选型
    最近也在想这个问题,我本身是java开发,WGCLOUD设计思想是人人皆运维,极大降低运维工作的学习门槛和学习成本,以下列几点比较下1..wgcloud对使用人员没什么要求,你可以是研发、测试、DBA、运维等,只要你能连接服务器会基础操作命令即可,它不要求你会专业的运维知识。Prometheus相对学习难度......
  • prometheus服务发现,文件发现
    【1】静态服务发现-job_name:"nodes"#metrics_pathdefaultsto'/metrics'#schemedefaultsto'http'.static_configs:-targets:-10.99.31.206:9100-10.99.31.201:9100-10.99.31.202:9100【2】基......
  • 使用Mesos管理Docker集群(Mesos + Marathon + Chronos + Docker
    1. Mesos简介1.1MesosApacheMesos 是一个分布式系统的管理软件,对集群的资源进行分配和管理。  Mesos主要由以下几部分组成:Master: 管理各Slave节点Slave: 为集群提供资源Framework: scheduler从Master请求资源,executor在Slave上执行任务Slave节点上的每个executor是......
  • Zookeeper 的 4lw 与信息安全
    1、4lw与信息泄露问题概述最近有个客户在扫描安全漏洞时,反馈ZOOKEEPER存在信息泄露问题,即:ZooKeeper默认开启在2181端口,在未进行任何访问控制情况下,攻击者可通过执行envi命令获得系统大量的敏感信息,包括系统名称、Java环境;大家可以通过telnetzk-ipzk-port和envi等4lw复......
  • zookeeper安装
    下载安装包这里需要注意的是,自zk3.5.5版本以后,已编译的jar包尾部带有bin后缀,所以我们选择下载带有bin的安装包。"zk官网下载地址"进行安装`执行tar-zxvf你下载的安装包将解压好的软件目录移动位置,我这里是移动到/usr/local/zookeepermv你解压的安装目录/usr/local/z......
  • 在Windows环境下搭建Redis集群
    安装Redis下载Windows版本Redis下载地址:https://github.com/MicrosoftArchive/redis/releases我下载了当前最新版本:Redis-x64-3.0.504.zip下载后,将文件解压到D:\Program_Files\redis\redis-cluster目录(目录可以自定义,路径上不要有空格)创建Redis集群节点Redis集群至少需要6个节点,3......
  • Java项目开启JMX:Prometheus数据上报
    对于Java项目而言,开启JMX进行JVM监控是很有必要的,可以帮忙开发人员分析、定位问题常规开启JavaJMX方法一般可以在启动脚本中添加相关的参数-Dcom.sun.management.jmxremote.port=6543-Dcom.sun.management.jmxremote.authenticate=false-Dcom.sun.management.jmxremote.ssl=......