首页 > 其他分享 >Zabbix调优不完全指南(共12个优化案例)

Zabbix调优不完全指南(共12个优化案例)

时间:2023-10-02 16:23:15浏览次数:31  
标签:12 zabbix server etc Zabbix 调优 conf vim

从学习搭建zabbix到完成各类监控、调优、二次开发已经过去了两年,期间通过QQ学习群、zabbix官方社区、各个技术博客整理学习了不少关于各种报错的处理方法,现在将常见的一些报错处理方法整理出来分享给大家。 现在开始介绍常见报错处理方法:

问题一、Zabbix server内存溢出,无法启动

问题原因:

这是由于zabbix默认的缓存配置只有8M,当你zabbix正常运行一段时间后,大批量添加一些被监控设备就会出现这种情况。

解决方法:

打开zabbix_server.conf文件,将CacheSize改一个较大的值,我现在给自己配的是1024M。

  1. vim /etc/zabbix/zabbix_server.conf
  2. CacheSize=1024M #第385行

问题二、Zabbix housekeeper processes more than 75% busy

问题原因:

由于zabbix每天都会产生大量数据(比如我现在监控项有20K+,每30s-5min每个监控项会产生一条数据,一天会产生非常多数据),为了防止数据库爆炸,zabbix会自动定期清理历史数据(这个历史数据保留时间值你可以在监控项中自己配置),但清理历史数据会影响mysql性能,就会出现上面的报错。

解决方法:

这里需要调整两个参数,一个是清理时间间隔、一个是清理的最大删除量。

  1. vim /etc/zabbix/zabbix_server.conf
  2. HousekeepingFrequency=12 #原值是每一小时清理一次,建议改为12或24小时清理一次。第363行
  3. MaxHousekeeperDelete=100000 #原值为每次清理5000条,建议改为上限100000条。 第376行

问题三、Zabbix poller processes more than 75% busy

问题原因:

这里可能有如下两个原因:
1、通过Zabbix agent采集数据的设备死机或其他原因导致zabbix agent死掉server获取不到数据。
2、server向agent获取数据时时间过长,超过了server设置的timeout时间。

解决方法:

1、增加zabbix server启动时初始化的进程数量:

  1. vim /etc/zabbix/zabbix_server.conf
  2. StartPollers=12 #第165行,视自己服务器性能改,上限是1000,如果改完发现启不起来可以改小一点。

2、修改模板自动发现规则中的保留失去的资源期间为0。

问题四:Zabbix discoverer processes more than 75% busy

问题原因:

看问题报警字面意思是自动发现进程忙碌数超过75%,这是因为我们用的监控模版中带着大量自动发现项,每一个自动发现项都会产生一个进程,所以一般我们添加多台被监控设备时就会出现这样的报错。

解决办法:

修改自动发现进程数。

  1. vim /etc/zabbix/zabbix_server.conf
  2. StartDiscoverers=10 #第219行,取掉#号,默认为1,改为10,上限为250请视自己的需求和服务器配置而定

其次还可以通过执行定期重启server脚本来清理进程,释放内存。

  1. [root@m01 ~]# grep 'StartDiscoverers' /etc/zabbix/zabbix_server.conf2 3 ### Option: StartDiscoverers4 5 StartDiscoverers=56 7 [root@m01 ~]# systemctl restart zabbix-server.service
  2. [root@m01 ~]# crontab -e2 3 @daily service zabbix-server restart > /dev/null 2>&14 5

问题五:Zabbix alerter processes more than 75% busy

问题原因:

这个问题通常是因为邮件告警进程过于繁忙导致的,如果邮件动作间隔设置过短,在一些极端情况下(比如核心网络宕了)会发生大量邮件(比如上万条邮件)告警,则会导致邮件进程繁忙或者邮件进程直接挂了。

解决方法:

修改邮件脚本,将邮件的动作改为打印时间,等待邮件完全释放再改回来,如下:

  1. [root@m01 ~]# cat /usr/lib/zabbix/alertscripts/sms 2 3 #!/bin/bash 4 5 echo `date` >>/tmp/sms.txt

问题六:Zabbix poller processes more than 75% busy

问题原因:

1、zabbix消耗的内存过多。
2、某个进程卡住了。
3、僵尸进程太多、出错、导致慢了。
4、网络延时。

解决方案:

这里有两个解决方案,第一是修改zabbix_server.conf文件调优性能,第二是简单粗暴定期重启server释放进程。

  1. vim /etc/zabbix/zabbix_server.conf
  2. StartPollers=12 #第165行,我现在设置为12,如果你服务器性能够强可以继续增加,上限是1000

其次是简单粗暴定期重启

  1. service zabbix-server restart
  2. crontab -e 调出Cron编辑器中增加一个计划:
  3. @daily service zabbix-server restart > /dev/null 2>&1

问题七:server端日志中出现大量first network error, wait for 15 seconds

问题原因:

产生这个问题的主要原因是你的监控项执行时间过长,超过了默认配置的timeout=15s时间,这里只要将你的server、proxy和agent的conf文件中的timeout时间改长一点即可,上限是30s,如果30s还不够那就要改系统源码来突破这个上限了。

解决方法:

  1. vim /etc/zabbix/zabbix_server.conf #这里以修改server端conf文件为例,其他两个类似的就不列举了
  2. Timeout=30 #第448行

问题八:More than 100 items having missing data for more than 10 minutes和Zabbix poller processes more than 75% busy

问题原因:

这两个问题的主要原因是你配置的缓存或者进程数太少,导致监控项很多时服务器来不及处理。

解决方法:

直接增加server端进程数和缓存即可。

  1. vim /etc/zabbix/zabbix_server.conf
  2. StartPollers=500
  3. StartPollersUnreachable=50
  4. StartTrappers=30
  5. StartDiscoverers=6
  6. CacheSize=1G
  7. CacheUpdateFrequency=300
  8. StartDBSyncers=20
  9. HistoryCacheSize=512M
  10. TrendCacheSize=256M
  11. HistoryTextCacheSize=80M
  12. ValueCacheSize=1G #这里把关于该问题的可能性能项配置一起给到大家

问题九:connection to database 'zabbix' failed: [1040] Too many connections

问题原因:

从字面意思上可以看出数据库的连接数已经超出最大限制。

解决方法:

直接修改mysql的最大连接数即可。

  1. vim /etc/my.cnf
  2. max_connections=1000 #将最大链接数调整为1000
  3. systemctl restart mariadb.service #重启SQL

问题十:批量添加大量被监控设备后出现服务端直接宕机,报警提示Zabbix value cache working in low memory mode Less than 25% free in the configuration cache。

问题原因:
由于大量添加被监控设备,导致服务器内存溢出。

解决方案:

  1. vim /etc/zabbix/zabbix_server.conf
  2. CacheSize=1024M #第385行

问题十一:Zabbix alerter processes more than 75% busy

问题原因:

从字面意思可以看出当你产生大量告警是即会出现这个报错,告警进程过多。

解决方案:

调整conf文件中的最大告警进程数即可。

  1. vim /etc/zabbix/zabbix_server.conf
  2. StartAlerters=3 #第254行,去掉#注释,修改为10,上限为100。

问题十二:zabbix unreachable poller processes more than 75 busy

问题原因:

产生这个问题的主要原因是zabbix server端轮询的不可达设备(被监控设备处于死机状态、agent与server数据传输超过timeout时间、mysql或zabbix server的io卡住了)过多导致。

解决方案:

  1. vim /etc/zabbix/zabbix_server.conf
  2. StartPingers=12 #第165行,修改为12,上限是1000

以上这些基本都是因为zabbix的zabbix_server.conf文件中的默认性能配置过低导致的错误,在日常使用中经常会遇到,只要进行简单配置后重新启动zabbix server即可解决。

转载于https://www.talkwithtrend.com/Article/245203

标签:12,zabbix,server,etc,Zabbix,调优,conf,vim
From: https://www.cnblogs.com/gongzb/p/17740025.html

相关文章

  • 题解 hdu 1269 迷宫城堡
    找点图论练习题写,发现hdu又寄了,那就发到blog里吧。思路:tarjan缩点判断DAG中点数是否为1。若是,则该图为强连通图。 //producedbymiya555//stupidmistakes:多测记得清空//ideas:tarjan模板#include<bits/stdc++.h>usingnamespacestd;constintN=10010;intn,m,low[......
  • 20211128《信息安全系统设计与实现》第七、八章笔记
    一、任务内容自学教材第7,8章,提交学习笔记(10分),评分标准如下1.知识点归纳以及自己最有收获的内容,选择至少2个知识点利用chatgpt等工具进行苏格拉底挑战,并提交过程截图,提示过程参考下面内容(4分)“我在学***X知识点,请你以苏格拉底的方式对我进行提问,一次一个问题”核心是要求GPT......
  • P1126 机器人搬重物 题解
    Problem题目概括$n\timesm$的网格,有些格子是障碍格。\(0\)无障碍,\(1\)有障碍。机器人有体积,总是在格点上。有5种操作:向前移动\(1/2/3\)步左转\(/\)右转每次操作需要\(1\)秒。求从\(x_1,y_1\)到\(x_2,y_2\)点的最短路。机器人有一个初始方向$......
  • Codeforces 1278D 题解
    题目大意题目大意给你\(n\)(\(1\leqslantn\leqslant5\cdot10^5\))条线段\([l_1,r_1],[l_2,r_2],\cdots,[l_n,r_n]\)(\(1\lel_i<r_i\le2n\))。保证每条线段的端点为整数,且\(\foralli,j\)(\(i\nej\)),不存在\(l_i=l_j\)或\(r_i=r_j\),不存......
  • 一个高精度24位ADC芯片ADS1222的使用方法及参考电路程序成都控制器定制
    前一段时间,在做单片机、PLC、电路板、控制器/箱、仪器仪表、机电设备或系统、自动化、工控、传感、数据采集、自控系统、控制系统,物联网,电子产品,软件、APP开发设计定制定做开发项目时,有要求用到24位的高精度ADC,用于对外部信号采集。经查阅,初步获得一款满足要求的芯片:ADS1222,本文......
  • Windows Server 2012 R2版本区别
    WindowsServer2012R2版本区别https://it.cha138.com/android/show-2899728.htmlWindowsServer2012R2激活密钥https://m.haozhuangji.com/xtjc/162316223.html......
  • 【12.0】Fastapi中的数据库SQLAlchemy ORM 操作
    【一】大型项目结构树coronavirus ├─static #静态文件 ├─templates #前端页面 ├─__init__.py #初始化文件 ├─database.py #数据库操作 ├─models.py #数据库表模型类 ├─schemas.py #响应体模型类 ├─curd.py #视图函数 └─main.py #......
  • UVA12655 Trucks 题解
    题目传送门前言中文题目可以看link。前置知识Kruskal重构树|最近公共祖先简化题意给定一个\(N\)个点\(M\)条边的有向图,共有\(S\)次询问,每次询问从\(L\)到\(H\)所有的路径中最小的权值的最大值(多组数据)。本题即最大瓶颈路问题。解法使最小的权值最大,不难......
  • 德勤制造业大数据项目之产品主数据蓝图方案 P112
    当今企业,尤其是大型企业,往往拥有数百个独立的应用程序和系统,跨组织、跨部门的数据很容易变得支离破碎、重复、以及不能及时更新。发生这种情况时,准确回答一些企业关心的基本问题都会变得很痛苦:例如“谁是我们最赚钱的客户?”“什么产品的利润率最高?”,甚至“我们有多少员工”?都会变......
  • 2023-2024-1 20211211《信息安全系统设计与实现》(上)第七、八章读书笔记
    教材第七、八章读书笔记第七章知识点归纳1文件操作级别-(1)硬件级别:-(2)操作系统中的文件系统函数-(3)系统调用-(4)I/O库函数-(5)用户命令-(6)sh脚本2文件I/O操作-(1)文件I/O操作示意图-(2)用户模式下的程序执行操作3低级别文件操作-(1)分区-(2)格式化分区-(3)挂载分区4EXT......