首页 > 其他分享 >kafka调优参考建议 —— 筑梦之路

kafka调优参考建议 —— 筑梦之路

时间:2024-05-24 22:28:17浏览次数:28  
标签:broker 默认 kafka 调优 线程 消息 设置 筑梦之路

这里主要是从不同使用场景来调优,仅供参考。

吞吐量优先

吞吐量优先使用场景如采集日志。

1. broker配置调优

num.partitions:分区个数,设置为与消费者的线程数基本相等

2. producer配置调优

 

  • batch.size

    批量提交消息的字节数,发送消息累计大小达到该值时才会发送(或者达到linger.ms),默认16k,如果 batch 设置太小,会导致频繁网络请求,吞吐量下降;如果 batch 太大,会导致一条消息需要等待很久才能被发送出去,增加网络延时;建议设置为1M。

  • linger.ms

    发送间隔时间,默认是 0,意思就是消息必须立即被发送。如果 linger.ms 设置的太小,会导致频繁网络请求,吞吐量下降;如果 linger.ms 太长,会导致一条消息需要等待很久才能被发送出去,增加网络延时;建议设置为100ms以上。

  • compression.type

    压缩类型,默认是 none,不压缩,但是也可以使用 lz4 压缩,效率还是不错的,压缩之后可以减小数据量,提升吞吐量,但是会加大 producer 端的 CPU 开销。

  • acks

    应答机制,默认是all(0.8.x之前,默认为1),即等待所有的副本收到消息后再返回成功,可以设置成1,即leader副本确认接收到消息后,生产者会收到返回成功的信息。但如果恰好此时leader失效,该条消息就会丢失。

  • buffer.memory

    内存缓冲区大小,默认32M,当消息写入过快或者写入量过大时,Sender 线程来不及处理,造成缓存区堆积,此时会阻塞用户线程,禁止往 kafka 写入消息,一般需要根据业务场景估算一个 buffer_memory 的合理值,建议64M以上。

 3. consumer配置调优

  • fetch.min.bytes

    从broker获取消息的最小字节数,只有大于这个值时,consumer才会拉取消息,默认是1,建议设置为1048576(1M)。

  • fetch.max.wait.ms

    当fetch.min.bytes不满足时,从broker获取消息的最大等待时间,默认是500,建议设置为1000

低延时优先

 使用场景有实时数据传输,比如弹幕

1. broker配置调优

  • num.partitions

    分区个数,设置为与消费者的线程数基本相等。

  • num.io.threads

    默认是8。负责写磁盘的线程数。整个参数值要占总核数的50%。

  • num.replica.fetchers

    默认是1。副本拉取线程数,这个参数占总核数的50%的1/3。

  • num.network.threads

    默认是3。数据传输线程数,这个参数占总核数的50%的2/3

2. producer配置调优​​​​​

  • linger.ms

    设置为0,即有消息就发送。

  • compression.type

    设置为nonenone。

  • acks

    设置为0,异步发送,无需等待任何broker确认

3. consumer配置调优

  • fetch.min.bytes

    设置为1,一有消息就消费。

  • 线程数

    消费者的并发线程数能满足实时消费的要求,避免积压

可靠性优先

 将kafka作为核心数据源,不允许kafka出现数据丢失情况的业务架构。

1. broker配置调优

  • default.replication.factor

    至少设置为3,2/3机器挂掉够,依然不影响数据的可靠性。

  • min.insync.replicas

    当生产者的ack设置为all时,必须满足该数量的副本同步成功后才能继续写入。当default.replication.factor设置为3时,该值建议设置为2。

  • unclean.leader.election.enable

    不洁leader选举,默认true,建议设置为false,即不允许不在ISR列表中的broker参加leader的选举,否则会导致已经提交但是还未复制的消息的丢失

2. producer配置调优

  • acks

    设置为all,等待ISR中的所有副本收到数据后再返回成功。

  • retries

    重试次数,建议>=3

3. consumer配置调优 

enable.auto.commit: 是否开启自动提交,默认true,在设置为true时与auto.commit.interval.ms(自动提交时间间隔)配合使用,有点是简单,省去了偏移量提交逻辑,缺点是会存在重复消费和消息丢失的情况,在数据可靠性优先的场景下需要设置为false,当事务提交后再提交位移。

可用性优先

 将kafka作为核心依赖,不允许kafka出现长时间不可用情况的业务架构(对数据可靠性要求不高,不阻塞读写就行)

1. broker配置调优

  • unclean.leader.election.enable

    设置为true,允许不洁的副本当选leader。

  • min.insync.replicas

    设置为1。

  • num.recovery.threads.per.data.dir

    启动时用于日志恢复和关闭时用于刷新的每个数据目录的线程数,默认为1,建议设置为1,减少重启时加载日志的时间。

2. producer配置调优

acks : 设置为0,不等待任何确认,直接返回成功。

标签:broker,默认,kafka,调优,线程,消息,设置,筑梦之路
From: https://blog.csdn.net/qq_34777982/article/details/139085485

相关文章

  • springboot集成kafka解决集群模式下分组ID不同问题
    背景:在集群模式下,每个实例需要分组ID不同,共同消费某个topic,集群下的实例是动态扩展的,无法确认实例的个数,每次项目启动的时候,需要动态的给定kakfa的分组ID,但是分组ID整体是一样的,不能改变。方式1:CURRENT_INSTANCE_GROUP_ID=KafkaConstant.SSE_GROUP.concat(String.valueOf(Sys......
  • 【2024年电工杯A题】园区微电网风光储协调优化配置(思路、代码......)
    ......
  • 【2024年电工杯A题】园区微电网风光储协调优化配置(思路、代码......)
    ......
  • jvm调优的案例-自编
    一、优化目标通常来说,我们的JVM参数配置大多还是会遵循JVM官方的建议,例如:-XX:NewRatio=2,年轻代:老年代=1:2-XX:SurvivorRatio=8,eden:survivor=8:1堆内存设置为物理内存的3/4左右JVM有哪些核心指标?合理范围应该是多少?jvm.gc.time:每分钟的GC耗时在1s以内,500ms以内尤......
  • Kafka篇
    ----------------------------------------------------------------------------------------消息队列分类:点对点(Queue),将消息发送到queue中,可以有多个消费者,但一个消息只能被一个消费者消费。发布与订阅(Topic),将消息发布到topic(主题)中,有多个消费者订阅某消息。发布到topic中的消息......
  • R语言电影数据分析:随机森林探索电影受欢迎程度因素、参数调优可视化
    全文链接:https://tecdat.cn/?p=34495原文出处:拓端数据部落公众号是什么让一个电影受欢迎?也许是影片的总收入(影院条目和DVDsellings)。我们选择的变量将是票房(gross)或观众评分(movie_facebook_likes)。众所周知,关于IMDB和番茄的好评与高收益的电影有关。我们的分析旨在回答以下研......
  • kafka再学习,上海银行面试后
    卡夫卡消费者  offset值,消费到哪里了呢?之前存储在zookeeper,后面kafka保存在一个主题里,并持久化到硬盘,相当安全消费者组ID用命令行创建会默认给你一个  cororifnator协调器,分区初始化对主题数50取模,选择有一个corrdinator超高频面试题再平衡 保持3秒的心跳,na......
  • Java核心面试知识集—Kafka面试题
    目录基础篇1、TCP、UDP的区别?2、TCP协议如何保证可靠传输?3、TCP的握手、挥手机制?4、TCP的粘包/拆包原因及其解决方法是什么?5、Netty的粘包/拆包是怎么处理的,有哪些实现?6、同步与异步、阻塞与非阻塞的区别?7、说说网络IO模型?8、BIO、NIO、AIO分别是什么?9、select、poll、epoll的机制......
  • 听说你是高手?说说你的 JVM调优方法论 吧?(美团面试,问的贼细)
    文章很长,且持续更新,建议收藏起来,慢慢读!疯狂创客圈总目录博客园版为您奉上珍贵的学习资源:免费赠送:《尼恩Java面试宝典》持续更新+史上最全+面试必备2000页+面试必备+大厂必备+涨薪必备免费赠送:《尼恩技术圣经+高并发系列PDF》,帮你实现技术自由,完成职业升级,薪......
  • Flink同步kafka到iceberg数据延迟,两个checkpoint后才可查询
    一、问题描述用户配置了高级参数很多,观察kafka增量数据不多,flink负载不高情况下两个checkpoint后才可查询到数据。  排查时hdfs有数据文件产生,但是mainfast文件中最新快照id没变化。 二、原因经腾讯排查,用户参数指定高级参数execution.checkpointing.unaligned:true引起......