首页 > 其他分享 >运维监控丨16条常用的Kafka看板监控配置与告警规则

运维监控丨16条常用的Kafka看板监控配置与告警规则

时间:2024-10-29 10:58:03浏览次数:6  
标签:设定 运维 阈值 Kafka 监控 告警 看板 描述

本期我们针对企业运维监控的场景,介绍一些监控配置和告警规则。可以根据Kafka集群和业务的具体要求,灵活调整和扩展这些监控配置及告警规则。在实际应用场景中,需要综合运用多种监控工具(例如Prometheus、Grafana、Zabbix等)和告警机制,以保障Kafka集群的稳定性和可靠性。此外,定期审核并更新监控配置与告警规则,对于维护Kafka集群的良好运行状态至关重要。

Kafka监控配置

1.  日志保留时间(log.retention.hours)

• 监控描述:控制消息在日志中保留的时间。

• 配置建议:根据业务需求设置合理的保留时间,避免消息堆积或过早删除。

2.  分区数(num.partitions)

• 监控描述:控制主题的分区数。

• 配置建议:根据数据量和负载情况调整分区数,以优化读写性能。

3.  ISR最小副本数(min.insync.replicas)

• 监控描述:控制ISR(In-Sync Replicas)的最小副本数。

• 配置建议:确保ISR数量满足可靠性需求,提高数据冗余度。

4.  日志刷新频率(log.flush.interval.messages)

• 监控描述:控制消息在日志中的刷新频率。

• 配置建议:根据写入磁盘的频率需求进行设置,以平衡性能和安全性。

5.  JVM堆内存大小

• 监控描述:设置JVM堆内存大小,确保Kafka服务器稳定运行。

• 配置建议:根据服务器硬件配置和业务负载进行调整。

6.  GC策略

• 监控描述:设置垃圾回收策略,优化Kafka服务器性能。

• 配置建议:选择合适的GC策略,减少GC停顿时间。

Kafka告警规则

1.  消息堆积告警

• 规则描述:当某个Topic的消息堆积量超过设定阈值时触发告警。

• 阈值设定:根据业务需求和数据处理速度进行设置。

2.  消费者延迟告警

• 规则描述:当消费者处理消息的延迟超过设定阈值时触发告警。

• 阈值设定:根据消费者处理能力和业务需求进行设置。

3.  Broker异常告警

• 规则描述:当Broker状态异常(如宕机、性能下降)时触发告警。

• 阈值设定:根据Broker的健康状态监控指标进行设置。

4.  Producer发送失败告警

• 规则描述:当Producer发送消息失败数量达到设定阈值时触发告警。

• 阈值设定:根据Producer的发送能力和业务需求进行设置。

5.  Producer发送耗时告警

• 规则描述:当Producer发送消息的平均耗时超过设定阈值时触发告警。

• 阈值设定:根据网络状况和Producer的性能进行设置。

6.  分区数过多告警

• 规则描述:当某个Topic的分区数超过设定阈值时触发告警。

• 阈值设定:根据集群规模和性能要求进行设置。

7.  ISR副本数不足告警

• 规则描述:当ISR副本数不足时触发告警。

• 阈值设定:根据数据冗余度和可靠性需求进行设置。

8.  磁盘空间不足告警

• 规则描述:当Kafka所在服务器的磁盘空间不足时触发告警。

• 阈值设定:根据磁盘容量和业务增长趋势进行设置。

9.  网络延迟告警

• 规则描述:当Kafka集群的网络延迟超过设定阈值时触发告警。

• 阈值设定:根据网络状况和业务需求进行设置。

10.  Broker不可用告警

• 规则描述:当Broker无法正常工作时触发告警。

• 阈值设定:根据Broker的健康状态监控指标进行设置。

标签:设定,运维,阈值,Kafka,监控,告警,看板,描述
From: https://www.cnblogs.com/lwops/p/18512533

相关文章

  • GaussDB技术解读——GaussDB架构介绍之OM运维管理关键技术方案
    ​GaussDBKernelV5OM运维管理关键模块如下。OM运维主要功能有:安装升级节点替换扩容、缩容自动告警巡检备份恢复、容灾日志分析系统在华为云的部署模式下,OM相关组件部署示意图如下:图7华为云OM运维管理用户登录华为云Console,访问GaussDBKernelV5的管控页面,输入......
  • centos9(linux): 在prometheus服务端添加被监控节点
    一,从服务端所在机器测试被监控节点是否9100端口打开1,用telnet$telnet172.16.13.191002,用nc$nc-nvv172.16.13.19100 二,在服务端prometheus中添加一个监控节点编辑配置文件:viprometheus.yml内容:在static_configs: 下增加一行:-targets:["172.16.13.......
  • Performance API 实现前端资源监控
    1.PerformanceAPI的用处PerformanceAPI 是浏览器中内置的一组工具,用于测量和记录页面加载和执行过程中的各类性能指标。它的主要用处包括:监控页面资源加载:跟踪页面中的资源(如CSS、JavaScript、图片)的加载时间。分析页面加载时间:从导航到页面完全渲染的所有时间点。衡量......
  • 从Exchange谈企业邮件系统运维
    本文来自腾讯蓝鲸智云社区用户:CanWay邮件系统作为企业重要的基础应用之一,承载着企业信息传输与存储,是用户每天工作的必备应用。但近来听闻各行业频发运行异常,每次故障都影响一大批用户无法正常工作,也给企业信息安全泄露带来极大压力。尽管邮件系统在企业运营中扮演着举足轻重......
  • GaussDB轻量化运维管理工具介绍
    ​前言本期课程将从管理平台的架构出发,结合平台的实例管理、实例升级、容灾管理和监控告警的功能和操作介绍,全面覆盖日常运维操作,带您理解并熟练运用GaussDB运维平台完成运维工作。一、GaussDB运维管理平台简介开放生态层友好Web界面,多云皮肤个性化定制丰富的原子API公有......
  • GaussDB OM运维管理关键技术方案
    GaussDBKernelV5OM运维管理关键模块如下。OM运维主要功能有:安装升级节点替换扩容、缩容自动告警巡检备份恢复、容灾日志分析系统在华为云的部署模式下,OM相关组件部署示意图如下:图7华为云OM运维管理用户登录华为云Console,访问GaussDBKernelV5的管控页面,输入想要的运维操......
  • 智能关键技术一:自治运维系统
    智能关键技术一:自治运维系统GaussDB自治运维系统“DBMind”的整体系统框图如下图所示,包含四个维度:数据采集层数据采集层主要功能实现指标数据采集,采集频率分为秒级采集和分钟级采集。其中秒级采集包括操作系统资源信息采集和数据库实例信息采集,例如操作系统层面CPU、内存、IO读......
  • 使用Ubuntu系统管理包工具(apt)部署Zabbix企业级监控系统
    1.系统版本UbuntuVERSION=22.04.4LTS2.zabbix安装2.1zabbix官方https://www.zabbix.com/cn/download?zabbix=7.0&os_distribution=ubuntu&os_version=22.04&components=server_frontend_agent&db=mysql&ws=apache2.2配置选择2.3使用Ubuntu的管理包工具(apt)部......
  • HikariCP连接池设置和监控
    1. 调整pool参数SpringBoot项目默认自动使用HikariCP,最近为了进行数据库session控制,特意调小了缺省的poolSize,原本以为会自动生效,经过压测发现还是使用默认的poolSize.原来的代码DataSource对象使用的是SpringDataSourcebuilder创建的,需要修改为Hikari......
  • Go语言的系统监控和日志分析
    ###开头段落:在处理Go语言的系统监控和日志分析时,关键的方式包括:使用标准库log进行日志记录、采用第三方库如logrus或zap提供更高级的日志管理功能、使用pprof进行性能监控、利用expvar发布服务内部信息等。这些方式既包含了基础的日志记录,也涵盖了性能和状态监控的高级应用。......