首页 > 其他分享 >zabbix运维告警处理-磁盘读写

zabbix运维告警处理-磁盘读写

时间:2023-11-15 09:22:20浏览次数:41  
标签:运维 读写 zabbix server Zabbix 内存 Linux 告警

1、

https://zhuanlan.zhihu.com/p/617685164?utm_id=0

服务器相关

告警:Disk read/write request responses are too high

vda: Disk read/write request responses are too high (read > 20 ms for 15m or write > 20 ms for 15m)

表达式解释为:

最近15分钟的对应磁盘的Disk read request avg waiting time (r_await)大于20ms或者 Disk write request avg waiting time (w_await) 大于20ms

解决方案

a、模板Linux block devices by Zabbix agent 中的提高宏{$VFS.DEV.READ.AWAIT.WARN} 和 宏 {$VFS.DEV.WRITE.AWAIT.WARN}的值 默认是20。

b、上SSD系统盘、大容量数据盘。

c、以上两种方法只能解决提示,但解决为何读写高的问题才是根本。

 

# 查读写io进程 iotop # 查io高的pid和进程 pidstat -d 1 10

告警:High memory utilization ( >90% for 5m)

Linux系统内存占用90%以上、

Linux/Unix系统管理内存的方式和windows是不一样的,即便是一个负载很小的linux,跑几天后, 内存占用量也将达到90%以上,即便无人访问,这个数字是完全正常的。但是,这个内存占用量不会达到100%的,

每天夜里系统都会执行/etc/cron.daily进行内存优化。 Linux/Unix系统是非常稳健的,虽然内存占用显示90%以上,但依然可保证365天以上无须重启。 对于Linux系统,评估其压力的主要指标是最近5分钟的负载指数:比如用top去看, 可以看到“0.70 0.35 0.01”这样的数字,分别表示5分钟内的、10分钟内的、15分钟内排队的进程数, 只要第一个数字即5分钟内的负载不大于5,系统就是健康的,不用做任何维护;如果这个数字大于了5, 那么通常系统速度就会变慢,一般有如下几种可能:

1) 有程序占用大量CPU,使用top命令来检查(看看是否有java程序锁死之类的故障)

2) 有程序占用大量内存,使得内存真正不够用了(这个才是真正需要加内存的时候),比如由于MySQL在较大负载下运行容量为GB级别的数据库导致内存不够用,需要给服务器插入更多物理内存

3) 磁盘系统读写故障,IO吞吐错误造成CPU负载上升,需要光盘引导进入单用户模式扫描修复磁盘,修不好就只能更换新硬盘了

因此,对于Linux/Unix系统内存占用的百分比,无须过于关心,一般检查系统负载参数即可

但也可以手动进行内存释放,具体操作如下:

cat /proc/sys/vm/drop_caches
0

首先,/proc/sys/vm/drop_caches的值,默认为0

Mysql 相关

告警:MySQL: Number of internal temporary tables created per second is high (over 30 for 5m)

解决方案:

Possibly the application using the database is in need of query optimization.

使用数据库的应用程序可能需要查询优化。需要开发人员对使用数据库的应用进行查询逻辑优化。

告警:MySQL: Replication lag is too high (over 30m for 5m)

解决方案

Seconds_Behind_Master时长超过1800秒,具体实际情况进行恢复主从延迟即可。

告警:MySQL: Buffer pool utilization is too low (less 50% for 5m)

缓冲池利用率太低

解决方案

由于分配了比实际需要更多的 RAM。结合实际情况,降低其严重性即可。

因为对存储服务器分配更多的RAM在合理计划范围内、增加缓冲池字节大小有利于提高性能。

$ vim /usr/local/mysql/conf/my.cnf #默认安装路径在 /etc/my.cnf innodb_buffer_pool_size = 128M #降低此值即可解决利用率太低的告警

Zabbix Server相关

告警:More than 100 items having missing data for more than 10 minutes

为轮询器的数量不足以监控监控项

解决方案

StartPollers 轮询器实例数量。根据具体情况设置大小,默认为5

修改zabbix_server.conf中StartPollers=5为StartPollers=100。

告警:Zabbix poller processes more than 75% busy

unreachable poller processes 一直在处于busy的状态,那这个具体代表什么意思呢,查看官方文档zabbix internal process、unreachable poller - poller for unreachable devices 用于轮询不可到达到的设备。

可能情况:

通过Zabbix agent采集数据的设备处于moniting的状态但是此时机器死机或其他原因导致zabbix agent死掉server获取不到数据,此时unreachable poller就会升高。

通过Zabbix agent采集数据的设备处于moniting的状态但是server向agent获取数据时时间过长,经常超过server设置的timeout时间,此时unreachable poller就会升高。

支撑Zabbix的MySQL卡住了,Zabbix服务器的IO卡住了都有可能,Zabbix进程分配到内存不足都有可能。

一个简单的方法是增加Zabbix Server启动时初始化的进程数量,这样直接增加了轮询的负载量,从比例上来讲忙的情况就少了。

解决方案

CacheSize:缓存大小, 单位字节.用于存储主机、监控项、触发器数据的共享内存大小。

修改zabbix_server.conf中CacheSize=8M为CacheSize=2048M。

 

告警:Zabbix server is not running the information displayed may not be current

原因:监控对象占满了trapper进程导致前端与server无法通信

解决方案:

将server端zabbix配置文件中StartTrappers值调大,然后重启zabbix-server

“At least one trapper process must be running to display server availability and view queue in the frontend.”——Trapper进程用于接收前端查询server可用性及队列的请求将StartTrappers=20调整到StartTrappers=100,重启zabbix-server。

 

 

2、

标签:运维,读写,zabbix,server,Zabbix,内存,Linux,告警
From: https://www.cnblogs.com/yaok430/p/17833106.html

相关文章

  • 云原生架构实战08 Kubernetes运维管理
    一、普罗米修斯架构简介Heapster是容器集群监控和性能分析工具,天然地支持Kubernetes和CoreOSKubernetes有个出名的监控agent--cAdvisor,在每个KubernetesNode上都会运行cAdvisor,它会收集本机以及容器的监控数据(cpumemory,filesystem, networkuptime)。在较新的版本中,k8s......
  • 喷淋塔远程监控智能运维管理系统解决方案
    喷淋塔是一种用于废气处理的环保设备,通常被用于工业废气处理中,对于降低废气排放、保护环境起着重要作用。其工作原理是通过让废气与液体(强酸、强碱、强氧化剂)充分接触,利用液体对废弃的吸收、溶解和中和作用,进而实现净化除臭达到排放标准的目的。 然而,传统喷淋塔管理方式存在一定的......
  • 【运维实操】TIDB v6.1.1:全量备份、全量恢复和增量备份方法解析
    作者:Fly-bird背景:由于公司要求必须保证数据库的数据安全,我们生产环境的数据库采取全量备份+增量备份+实时同步从库的方式保证数据库的高可用,本文介绍我公司生产环境的数据库备份方式。注意:我们使用实时同步数据到从库的方式保障高可用(使用pump+drainer),同时支持恢复任意时刻数据的......
  • 飞书官方| Zabbix告警信息发送飞书卡片消息,让消息飞来
    一概述告警通知对企业至关重要,直接影响网络稳定性。借助飞书集成平台,可以轻松将Zabbix与飞书进行对接,灵活地配置各种告警通知。在日常工作中,IT运维人员需要及时收到和处理各种IT系统的告警信息,以保证系统稳定运行。在Zabbix监控系统中,用户可以通过配置将告警信息发送到飞书群......
  • 来来来,一文让你读懂Cocos Creator如何读写JSON文件
    前言在游戏开发过程中,读取配置文件是必不可少的,而使用JSON做配置文件又比较常见,本文重点给大家讲述如何在CocosCreator开发中读取和解析JSON数据文件以及如何写JSON文件。一、JSON简介1.什么是JSONJSON的英文全称是JavaScriptObjectNotation,即JavaScript对象表示法。2.J......
  • 数据可视化在IT运维中的应用
      数据可视化,这一将抽象复杂的数据转化为直观图形的技术,已逐渐成为现代IT运维的核心工具。在复杂的网络环境和庞大的数据洪流中,如何通过数据可视化技术为运维人员呈现清晰、直观的运行状态和性能指标,成为提升运维效率和准确性的关键所在。数据可视化的价值1.快速洞察问题:通过......
  • 统一运维平台建设的一些思路和实践
    企业构建一站式运维平台的目的是为了提升运维效率。那么一个成熟的运维系统应该要解决哪些问题呢?笔者认为首先是运维对象要被管理起来,然后是监控这些对象,接着是这些对象的自动化运维,最后是所有的运维操作都要有所规范。概括起来对应的系统就是CMDB、统一监控、自动化平台、ITSM,如......
  • 安防监控EasyCVR视频汇聚平台运维现场无法使用Linux抓包该如何解决?
    视频云存储/安防监控EasyCVR视频汇聚平台基于云边端智能协同,支持海量视频的轻量化接入与汇聚、转码与处理、全网智能分发、视频集中存储等。监控视频平台EasyCVR拓展性强,视频能力丰富,具体可实现视频监控直播、视频轮播、视频录像、云存储、回放与检索、智能告警、服务器集群、语音......
  • 倒计时2天!和上百位Zabbix用户在武汉Meetup见!
    8位演讲嘉宾认真准备彩排,100+Zabbix用户报名参会, 让我们十分期待本周六!倒计时2天,Zabbix官方将首次来到武汉与大家见面!Meetup邀请到长江证券、中南财经政法大学、某城商行、社区专家、Zabbix大中华区培训师以及Zabbix合作伙伴带来一手干货和实践分享。设置QA环节供各位朋友直接......
  • Zabbix proxy中的数据缓存
    感谢本文作者田川,Zabbix中级认证专家。Zabbixproxy的一个特性是如果与Zabbix服务器的连接丢失时可以缓存收集的监控数据。在这篇文章中,将使用数据包捕获和数据包分析来展示它如何发生。01Zabbix设置和捕获Zabbix代理流量这是本次演示中的设置:·中心站点的一个Zabbix服务器(IPv6地......