首页 > 其他分享 >kafka中的数据清理策略

kafka中的数据清理策略

时间:2024-11-11 20:16:31浏览次数:3  
标签:log 压缩 清理 默认 kafka offset 策略 日志 retention

Kafka 中默认的日志(这个地方是数据的意思,就是Segment)保存时间为 7 天,可以通过调整如下参数修改保存时间。

log.retention.hours,最低优先级小时,默认 7 天。

log.retention.minutes,分钟。 --如果设置了该值,小时的设置不起作用。

log.retention.ms,最高优先级毫秒。 --如果设置了该值,分钟的设置不起作用。

log.retention.check.interval.ms,负责设置检查周期,默认 5 分钟。

那么日志一旦超过了设置的时间,怎么处理呢?

Kafka 中提供的日志清理策略有 delete 和 compact 两种。

1)delete 日志删除:将过期数据删除

log.cleanup.policy = delete 所有数据启用删除策略

(1)基于时间:默认打开。以 segment 中所有记录中的最大时间戳作为该文件时间戳。

(2)基于大小:默认关闭。超过设置的所有日志总大小,删除最早的 segment。

log.retention.bytes,默认等于-1,表示无穷大。

思考:如果一个 segment 中有一部分数据过期,一部分没有过期,怎么处理?

2)compact 日志压缩(合并的意思,不是真的压缩)

compact日志压缩:对于相同key的不同value值,只保留最后一个版本。

log.cleanup.policy = compact 所有数据启用压缩策略

压缩后的offset可能是不连续的,比如上图中没有6,当从这些offset消费消息时,将会拿到比这个offset大的offset对应的消息,实际上会拿到offset为7的消息,并从这个位置开始消费。

这种策略只适合特殊场景,比如消息的key是用户ID,value是用户的资料,通过这种压缩策略,整个消息集里就保存了所有用户最新的资料。

比如:张三 去年18岁,今年19岁,这种场景下可以进行压缩。

标签:log,压缩,清理,默认,kafka,offset,策略,日志,retention
From: https://blog.csdn.net/A12345689B/article/details/143694109

相关文章

  • kafka消费者的消费分区策略有哪些,默认是哪个?
    Kafka消费者的分区分配策略主要有以下几种,分别决定了如何将多个分区分配给消费者:1.Range(范围分配)描述:将分区连续地分配给消费者。每个消费者负责一段连续的分区。如果有多个消费者,那么消费者会按照顺序被分配一段连续的分区。适用场景:适用于消费者之间的数据量差异较小,且需......
  • kafka面试题(二)
    1、kafka是如何做到高效读写1)Kafka 本身是分布式集群,可以采用分区技术,并行度高 2)读数据采用稀疏索引,可以快速定位要消费的数据。(mysql中索引多了之后,写入速度就慢了) 3)顺序写磁盘4)页缓存 + 零拷贝技术2、Kafka集群中数据的存储是按照什么方式存储的?缓存存储;日志存......
  • kafka监控
    kafka监控部署kafka使用Prometheus、Grafana和kafka_exporter来构建kafka指标监控问题背景在实时场景下,对于数据积压是很常见的,我们更希望如何去快速知道有没有数据积压,目前消费了多少,速度怎么样,趋势如何。可以使用原生命令kafka-consumer-groups.sh--bootstrap-servernode01......
  • Transformers显存优化策略
    (原创)Transformers显存优化简易策略(本教程目标:4G显存也能跑BERT-Large)......
  • WSL 2 中 FastReport 与 FastCube 的设置方法与优化策略
    软件开发人员长期以来一直在思考这个问题:“我们如何才能直接在Windows中运行Linux应用程序,而无需使用单独的虚拟机?”WSL技术为这个问题提供了一个可能的答案。WSL的历史始于2016年。当时,其实现涉及使用Windows内核中的系统调用运行Linux二进制可执行文件。第一个......
  • 工位管理新策略:Spring Boot企业级应用
    2相关技术2.1MYSQL数据库MySQL是一个真正的多用户、多线程SQL数据库服务器。是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常适用于Web站点或者其他......
  • 千亿市值医械企业 | 联影医疗:CRM驱动售后服务管理的实践与策略
    在当今这个数字化时代,企业的竞争已不仅仅是产品质量的较量,更是服务品质与效率的博弈。特别是在医疗设备制造领域,售后服务的重要性愈发凸显,它不仅是企业稳定收入来源的保障,更是提升客户满意度、塑造品牌形象的关键之一。联影医疗,作为全球高端医疗影像设备领域的佼佼者,深知售后服务......
  • mysql清理binlog日志的方法
    MySQL中的binlog日志记录了数据库中数据的变动,便于对数据的基于时间点和基于位置的恢复,但是binlog也会日渐增大,占用很大的磁盘空间,因此,要对binlog使用正确安全的方法清理掉一部分没用的日志。 [方法一]手动清理binlog清理前的准备:1.查看主库和从库正在使用的binlog是哪个文件......
  • PoliFormer:使用 Transformers 扩展策略在线 RL,打造熟练导航员
    24年6月来自西雅图AI2的论文“PoliFormer:ScalingOn-PolicyRLwithTransformersResultsinMasterfulNavigators”,获得CoRL‘24最佳论文之一。POLIFORMER(策略Transformer),这是一个仅限RGB的室内导航智体,通过大规模强化学习进行端到端训练,尽管纯粹在模拟中训练,但它......
  • 基于级联H桥的多电平逆变器PWM控制策略的simulink建模与仿真
    1.课题概述       级联H桥(CHB)多电平逆变器是一种通过多个H桥单元级联实现更高电压等级和更高质量输出波形的电力电子转换装置。这种逆变器在高压大功率场合应用广泛,例如风力发电、光伏并网、高压电机驱动等领域。 2.系统仿真结果  3.核心程序与模型版本:MATLA......