kafka分区与消费者配置

时间：2023-10-22 11:33:07浏览次数：31

标签：消费者分区 Kafka 线程消息数据量 kafka

kafka分区与消费者配置

工作当中如何计算分区与消费者数量,如何最大化利用资源,防止不必要的浪费,本文将带你计算

1.基本概念回顾

Kafka是一个分布式流处理平台，具有高吞吐量、可扩展性和容错性。以下是一些Kafka的基本概念：

消息：Kafka是一个消息传递系统，它通过生产者将消息发布到主题（topic），然后通过消费者从主题订阅并消费消息。
主题（Topic）：主题是消息的分类或者流的名称。生产者将消息发布到特定的主题，而消费者可以订阅一个或多个主题来消费消息。
分区（Partition）：每个主题可以分成一个或多个分区。分区是消息的有序序列，每个消息都有一个唯一的偏移量（offset）。分区使得Kafka可以在多个服务器上并行处理和存储消息。
生产者（Producer）：生产者负责将消息发布到Kafka主题。生产者将消息发送到特定的主题和分区，或者通过Kafka的分区器自动选择分区。
消费者（Consumer）：消费者订阅一个或多个主题，并从分区中拉取消息进行消费。消费者可以以不同的消费者组（Consumer Group）的形式进行组织，每个消费者组可以有一个或多个消费者。
消费者组（Consumer Group）：消费者组是一组具有相同消费者组ID的消费者的集合。每个分区只能由一个消费者组中的一个消费者进行消费，这样可以实现负载均衡和并行处理。
偏移量（Offset）：偏移量是消息在分区中的唯一标识符，用于跟踪消费者在分区中的消费位置。消费者可以控制自己的偏移量，并决定从哪个偏移量开始消费消息。
Broker：Kafka集群中的每个服务器节点称为Broker。每个Broker负责处理消息的存储和复制，以及与生产者和消费者进行通信。

2. 计算方式

数据量预估(秒/分)

比如物联网数据告警场景下: 我们有2000台设备,单个设备数据采集点个数: 100个,数据上传频率为1分钟上传一次,配置了告警的设备约占总数量的30%

由此可得出:

1分钟数据量: 2000 * 100 = 200000

1秒钟数据量: (1分钟数据量) (200000 * 0.3 (30%的数据) ) / 60s = 1000
单条数据在业务处理中耗时 ? 单条数据处理耗时: 50ms ,一个线程1秒钟处理20个
目前Kafka分配了多少个分区 ? 分区数: 32 需要确保每个消费者组中的消费者数量不超过32个
消费者数量(服务器数量) 4台

每个实例并行度:spring.kafka.listener.concurrency 配置计算方式为: 分区数/实例数 = 32 / 4 = 8 (建议不要超过8),超过8可能会造成线程闲置,也就是说消费组内每个实例只负责8个分区的数据.
每秒可消费数据量: 4台实例总处理线程为32个,每1秒钟可处理 32 * (1000ms / (单个数据处理耗时)50ms) = 640个
1000 - 640 , 明显处理不过来,会堆积数据, 我们需要放入阻塞队列结合线程池进行异步消费

每秒处理1000个数据，而单个线程每秒可以处理20个数据。为了合理规划阻塞队列大小和线程池数量，可以考虑以下方案：

阻塞队列大小：由于单个线程每秒可以处理20个数据，可以设置一个容量较小的阻塞队列来缓存待处理的数据。这样可以确保线程池中的线程不会因为队列满而阻塞。
例如，可以设置阻塞队列的大小为50以上，以便缓存一定数量的待处理数据。
线程池数量：为了处理每秒1000个数据，需要将线程池的线程数量设置为适当的值。可以根据以下公式计算线程池的大小：
线程池大小 = 数据量每秒 / 单个线程每秒处理的数据量
线程池大小 = 1000 / 20 = 50
由于线程池的大小通常需要为整数，可以将线程池大小设置为50，以确保有足够的线程来处理数据。

标签：消费者,分区,Kafka,线程,消息,数据量,kafka
From： https://www.cnblogs.com/lifajia/p/17780160.html

linux 磁盘分区与格式化
一、基本分区管理1.1、linux磁盘表示方法介绍硬盘命名方式OSIDE(并口)SATA(串口)SCSICentOS6/dev/hda/dev/sda/dev/sdaCentOS7/dev/sda/dev/sda/dev/sdaCentOS8/dev/sda/dev/sda/dev/sda磁盘设备的命名/dev/sda2s=硬件接口类型（sata/scsi）,d=dis......
kafka介绍
Kafka名字的由来kafka的架构师jaykreps对于kafka的名称由来是这样讲的，由于jaykreps非常喜欢franzkafka,并且觉得kafka这个名字很酷，因此取了个和消息传递系统完全不相干的名称kafka，该名字并没有特别的含义。Kafka的诞生kafka的诞生，是为了解决linkedin的数据管道问题，起初linkedin......
kafka常用命令
kafka文件所在位置：cd/UTMGMAPL/upkafka_1.2.11-1.0/bin创建一个模拟生产者./kafka-console-producer.sh--broker-list146.33.240.13:9092--topictopic_tyq_1创建一个模拟消费者./kafka-con......
使用Grafana + jmx 监控 kafka3.5 的过程
使用Grafana+jmx监控kafka3.5的过程摘要周五一边进行数据库监控,同时想着部署一套监控系统.能够监控一下kafka等中间件结果不想自己遇到了很多坑.下午有同事语音告诉自己一些排查问题的方式与方法.自己又多花了半个小时才将数据捞出来.感觉自己对很多工具的使用还......
esp32 factory+双OTA分区
#Name,Type,SubType,Offset,Size,Flags#Note:ifyouhaveincreasedthebootloadersize,makesuretoupdatetheoffsetstoavoidoverlap,,,,nvs,data,nvs,0x4000,otadata,data,ota,0x4000,phy_init,data,phy,0x1000,factory,......
Python-操作kerberos验证的kafka
本笔记为python操作kerberos认证的kafka的操作方法，此仅记录作为使用者，连接客户提供的kafka并进行操作的流程。1、依赖安装：python相关依赖库：pip3installkafka-pythonpip3installgssapi系统（镜像）：需要安装kerberos的客户端进行验证对于mac：brewinstallkrb5对于Debian或Ub......
kafka介绍
官网：https://kafka.apache.org/Kafka是一个分布式事件流平台1介绍核心特性：高吞吐量、弹性、持久化存储、高可用事件流类似人类的中枢神经系统。越来越多的业务被软件实现和自动化，在此种情况下软件的用户还是软件。技术上讲，事件流就是实时的从事件源(数据库,传感器,移动设备,......
操作系统之分区存储组织+页式存储组织
1、分区存储例题展示2、分区存储例题问题解决由相关知识可知，在已知该题采用可变分区进行内存分配存储管理的情况下，我们共有四种算法可以选择：1、首次适应算法--空闲分区以地址递增的次序进行连接，即从上至下按照原来次序排列，然后将作业4放入其中即可故可知，作业4应被放入到首位......
zokeeper和kafka关系
在部署Kafka时，有必要同时部署ZooKeeper是因为Kafka使用ZooKeeper来管理和协调其集群的状态和配置信息。ZooKeeper是一个分布式协调服务，在Kafka中被用作集群协调器。Kafka集群中的每个节点都会与ZooKeeper进行通信，以共享元数据信息、协调leader选举、检测节点故障......
Kafka 消费者组
一个分区对不同消费组是共享的，对同一个消费组里的消费者是互斥的；参考文章【1】https://cloud.tencent.com/developer/article/1540509......

kafka分区与消费者配置

kafka分区与消费者配置

1.基本概念回顾

2. 计算方式

相关文章

赞助商

阅读排行