首页 > 其他分享 >分区和副本机制

分区和副本机制

时间:2024-04-03 12:30:54浏览次数:16  
标签:副本 策略 -- 分区 topic 机制 分配

生产者分区写入策略

生产者写入消息到topic,Kafka将依据不同的策略将数据分配到不同的分区中

  1. 轮询分区策略
  2. 随机分区策略
  3. 按key分区分配策略
  4. 自定义分区策略

轮询策略

  • 默认的策略,也是使用最多的策略,可以最大限度保证所有消息平均分配到一个分区
  •  如果在生产消息时,key为null,则使用轮询算法均衡地分配分区

随机策略(不用)

随机策略,每次都随机地将消息分配到每个分区。在较早的版本,默认的分区策略就是随机策略,也是为了将消息均衡地写入到每个分区。但后续轮询策略表现更佳,所以基本上很少会使用随机策略。

按key分配策略

按key分配策略,有可能会出现「数据倾斜」,例如:某个key包含了大量的数据,因为key值一样,所有所有的数据将都分配到一个分区中,造成该分区的消息数量远大于其他的分区。

乱序问题

轮询策略、随机策略都会导致一个问题,生产到Kafka中的数据是乱序存储的。而按key分区可以一定程度上实现数据有序存储——也就是局部有序,但这又可能会导致数据倾斜,所以在实际生产环境中要结合实际情况来做取舍。

自定义分区策略

实现步骤:

1.创建自定义分区器

public class KeyWithRandomPartitioner implements Partitioner {

    private Random r;

    @Override
    public void configure(Map<String, ?> configs) {
        r = new Random();
    }

    @Override
    public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) {
        // cluster.partitionCountForTopic 表示获取指定topic的分区数量
        return r.nextInt(1000) % cluster.partitionCountForTopic(topic);
    }

    @Override
    public void close() {
    }
}

2.在Kafka生产者配置中,自定使用自定义分区器的类名

props.put(ProducerConfig.PARTITIONER_CLASS_CONFIG, KeyWithRandomPartitioner.class.getName());

消费者组Rebalance机制

Rebalance再均衡

Kafka中的Rebalance称之为再均衡,是Kafka中确保Consumer group下所有的consumer如何达成一致,分配订阅的topic的每个分区的机制。

Rebalance触发的时机有:

1.消费者组中consumer的个数发生变化。例如:有新的consumer加入到消费者组,或者是某个consumer停止了。

2.订阅的topic个数发生变化

消费者可以订阅多个主题,假设当前的消费者组订阅了三个主题,但有一个主题突然被删除了,此时也需要发生再均衡。

3.订阅的topic分区数发生变化

Rebalance的不良影响

  • 发生Rebalance时,consumer group下的所有consumer都会协调在一起共同参与,Kafka使用分配策略尽可能达到最公平的分配
  • Rebalance过程会对consumer group产生非常严重的影响,Rebalance的过程中所有的消费者都将停止工作,直到Rebalance完成

消费者分区分配策略

Range范围分配策略

Range范围分配策略是Kafka默认的分配策略,它可以确保每个消费者消费的分区数量是均衡的。

注意:Rangle范围分配策略是针对每个Topic的。

配置

配置消费者的partition.assignment.strategy为org.apache.kafka.clients.consumer.RangeAssignor。

算法公式

n = 分区数量 / 消费者数量

m = 分区数量 % 消费者数量

前m个消费者消费n+1个

剩余消费者消费n个

RoundRobin轮询策略

RoundRobinAssignor轮询策略是将消费组内所有消费者以及消费者所订阅的所有topic的partition按照字典序排序(topic和分区的hashcode进行排序),然后通过轮询方式逐个将分区以此分配给每个消费者。

配置

配置消费者的partition.assignment.strategy为org.apache.kafka.clients.consumer.RoundRobinAssignor。

Stricky粘性分配策略

从Kafka 0.11.x开始,引入此类分配策略。主要目的:

  1. 分区分配尽可能均匀
  2. 在发生rebalance的时候,分区的分配尽可能与上一次分配保持相同

没有发生rebalance时,Striky粘性分配策略和RoundRobin分配策略类似。 

上面如果consumer2崩溃了,此时需要进行rebalance。如果是Range分配和轮询分配都会重新进行分配,例如:

通过上图,我们发现,consumer0和consumer1原来消费的分区大多发生了改变。接下来我们再来看下粘性分配策略。

我们发现,Striky粘性分配策略,保留rebalance之前的分配结果。这样,只是将原先consumer2负责的两个分区再均匀分配给consumer0、consumer1。这样可以明显减少系统资源的浪费,例如:之前consumer0、consumer1之前正在消费某几个分区,但由于rebalance发生,导致consumer0、consumer1需要重新消费之前正在处理的分区,导致不必要的系统开销。(例如:某个事务正在进行就必须要取消了)

副本机制

副本的目的就是冗余备份,当某个Broker上的分区数据丢失时,依然可以保障数据可用。因为在其他的Broker上的副本是可用的。

producer的ACKs参数

对副本关系较大的就是,producer配置的acks参数了,acks参数表示当生产者生产消息的时候,写入到副本的要求严格程度。它决定了生产者如何在性能和可靠性之间做取舍。

配置:

Properties props = new Properties();
props.put("bootstrap.servers", "node1.itcast.cn:9092");
props.put("acks", "all");
props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

acks配置为0

ACK为0,基准测试:

bin/kafka-producer-perf-test.sh --topic benchmark --num-records 5000000 --throughput -1 --record-size 1000 --producer-props bootstrap.servers=node1.itcast.cn:9092,node2.itcast.cn:9092,node3.itcast.cn:9092 acks=0

 测试结果:

指标

单分区单副本(ack=0)

单分区单副本(ack=1)

吞吐量

165875.991109 records/sec

每秒16.5W条记录

93092.533979 records/sec

每秒9.3W条记录

吞吐速率

158.19 MB/sec

每秒约160MB数据

88.78 MB/sec

每秒约89MB数据

acks配置为1 

当生产者的ACK配置为1时,生产者会等待leader副本确认接收后,才会发送下一条数据,性能中等。

acks配置为-1或者all

bin/kafka-producer-perf-test.sh --topic benchmark --num-records 5000000 --throughput -1 --record-size 1000 --producer-props bootstrap.servers=node1.itcast.cn:9092,node2.itcast.cn:9092,node3.itcast.cn:9092 acks=all

指标

单分区单副本(ack=0)

单分区单副本(ack=1)

单分区单副本(ack=-1/all)

吞吐量

165875.991109/s

每秒16.5W条记录

93092.533979/s

每秒9.3W条记录

73586.766156 /s

每秒7.3W调记录

吞吐速率

158.19 MB/sec

88.78 MB/sec

70.18 MB

平均延迟时间

192.43 ms

346.62 ms

438.77 ms

最大延迟时间

670.00 ms

1003.00 ms

1884.00 ms

标签:副本,策略,--,分区,topic,机制,分配
From: https://blog.csdn.net/qq_63431773/article/details/137234738

相关文章

  • 大模型中常用的注意力机制GQA详解以及Pytorch代码实现
    分组查询注意力(GroupedQueryAttention)是一种在大型语言模型中的多查询注意力(MQA)和多头注意力(MHA)之间进行插值的方法,它的目标是在保持MQA速度的同时实现MHA的质量。这篇文章中,我们将解释GQA的思想以及如何将其转化为代码。GQA是在论文GQA:TrainingGeneraliz......
  • MyBatis<一级二级缓存><缓存更新机制>
    MyBatis<一级二级缓存><缓存更新机制>_二级缓存更新本地缓存-CSDN博客  同一个select,在同一个事务中(同一个sqlsesion对象),会优先从sqlsession缓存中获取。容易出问题的代码:在一个较大的事务中,某个函数A内调用了select,并且对结果进行了操作,比如set。然后在当前函数A中又调用了......
  • resize centos分区
    下了一个centoscloudimage准备扩容。首先使用qemu-imgresize2fs$centos_image+100G。在虚拟机中挂在centosimage,使用parted改变分区大小,最后一步是使用resize2fs来更新文件系统超级块。但是却报错:resize2fs/dev/vdb1resize2fs1.46.5(30-Dec-2021)resize2fs:Badmagicn......
  • [转帖]nginx重试机制proxy_next_upstream
    https://www.cnblogs.com/cyleon/p/11023229.html nginx作为反向代理服务器,后端RS有多台服务器,上层通过一定机制保证容错和负载均衡。nginx的重试机制就是容错的一种官方链接:http://nginx.org/en/docs/http/ngx_http_proxy_module.html#proxy_next_upstreamproxy_next_......
  • 将windows系统安装在移动硬盘的一个分区中
    昨天发生了一个非常悲催的事情,经过不懈努力我竟然给弄好了,特此记录下来。事情是这样的,我有一台Dell笔记本电脑,Win7密码忘了,准备重装系统时发现Bios被设置了密码(电脑曾经拿到电子城维修过,唉!奸商啊)。我非常生气,不想再花钱到电子城维修了。自己动手试试。问题是Bios设置了密码......
  • 记一次使用spring事件机制失效排查修复
    前言在日常业务开发中过程,我们有时候为了业务解耦,会利用spring的机制,就是利用spring提供的ApplicationListener、ApplicationEventMulticaster等核心API来实现。(注:我这边列的是核心底层API接口,正常我们会用监听事件用@EventListener,发布事件用applicationContext.publishEvent()......
  • 将wavedrom图转换为excel+UVM使用双顶层环境+慎用casex和casez使用case inside+shell
    将wavedrom图转换为excel原理上是先转换为json,然后写入到excel中。importcsvimportjsonimportpandasaspdcontent=[]withopen("source.txt")asf:c=f.read()c=c.replace("reg","\"reg\"").replace("bits",&......
  • YOLOv9有效改进专栏汇总|未来更新卷积、主干、检测头注意力机制、特征融合方式等创新![
    ​专栏介绍:YOLOv9改进系列|包含深度学习最新创新,助力高效涨点!!!专栏介绍    YOLOv9作为最新的YOLO系列模型,对于做目标检测的同学是必不可少的。本专栏将针对2024年最新推出的YOLOv9检测模型,使用当前流行和较新的模块进行改进。本专栏于2024年2月29日晚创建,预计四......
  • 关于OcenaBase v4.2中,分区转移和负载均衡的技术解读
    OceanBase​​​​​​​​​​​​​​作为一款原生分布式数据库,其核心的技术特性之一是高可扩展性,其具体表现在两个方面:首先,是灵活的扩缩容能力,包括垂直扩缩容和水平扩缩容:垂直扩缩容:指通过调整服务节点上的资源规格来改变服务能力的方法。举例来说,当服务节点在CPU或内存资......
  • RSTP 的机制
    什么是RSTP协议2001年,IEEE引入了快速生成树协议(RSTP)作为IEEE802.1w。RSTP随后被纳入IEEE802.1D-2004,使原来的生成树协议(STP)标准过时。RSTP协议被设计为向后兼容的STP协议。相比STP协议,RSTP协议提供了更快的收敛速度,通过引入新的收敛行为和端口角色来实现这一点。S......