Flink调优-Checkpoint优化

时间：2023-08-03 17:35:52浏览次数：47

标签：快照 Barrier Stream Flink Checkpoint 调优 Operator

1 Checkpoint的介绍

Checkpoint的官网文档地址：https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/ops/state/checkpoints/

Checkpoint 使 Flink 的状态具有良好的容错性，通过 checkpoint 机制，Flink 可以对作业的状态和计算位置进行恢复。

Flink是一个分布式的流处理引擎，需要保障Flink作业的7*24小时持续稳定运行。

为了保证state容错，Flink提供了处理故障的措施，这种措施称之为checkpoint(一致性检查点)。checkpoint是Flink实现容错的核心功能，主要是周期性地触发checkpoint，将state生成快照持久化到外部存储系统(比如HDFS)。

如果Flink程序出现故障，那么就可以从上一次checkpoint中进行状态、或故障之前某一状态恢复，然后从该状态恢复任务的运行，从而提供容错保障。在 Flink 中，Checkpoint 机制采用的是 chandy-lamport（分布式快照）算法，通过 Checkpoint 机制，保证了 Flink 程序内部的 Exactly Once 语义。

2 Checkpoint的运行机制

Checkpoint指定触发生成时间间隔后，每当需要触发Checkpoint时，会向Flink程序运行时的多个分布式的Stream Source中插入一个Barrier标记，这些Barrier会根据Stream中的数据记录一起流向下游的各个Operator。当一个Operator接收到一个Barrier时，它会暂停处理Steam中新接收到的数据记录。因为一个Operator可能存在多个输入的Stream，而每个Stream中都会存在对应的Barrier，该Operator要等到所有的输入Stream中的Barrier都到达。当所有Stream中的Barrier都已经到达该Operator，这时所有的Barrier在时间上看来是同一个时刻点（表示已经对齐），在等待所有Barrier到达的过程中，Operator的Buffer中可能已经缓存了一些比Barrier早到达Operator的数据记录（Outgoing Records），这时该Operator会将数据记录（Outgoing Records）发射（Emit）出去，作为下游Operator的输入，最后将Barrier对应Snapshot发射（Emit）出去作为此次Checkpoint的结果数据。

2.1 Flink Barrier

flink实现检查点一致就是通过barrier实现的，

Barrier是由流数据源（stream source）注入数据流中，并作为数据流的一部分与数据记录一起往下游流动。Barriers将流里的记录分隔为一段一段的记录集，每一个记录集都对应一个快照。每个Barrier会携带一个快照的ID（递增），这个快照对应Barrier前面的记录集。

标签：快照,Barrier,Stream,Flink,Checkpoint,调优,Operator
From： https://blog.51cto.com/u_15891458/6951159

Flink调优
一、资源配置优化1、并行度1.1并行度设置并行度（parallelism）：为任务提供足够的并行度，但并行度也不是越大越好，太多会加重数据在多个solt/taskmanager之间数据传输压力，包括序列化和反序列化带来的压力。一个任务的并行度设置可以从4个层面指定：OperatorLevel（算子层面）ExecutionEnvir......
mysql在执行innobackupex增量备份时报错cannot open *****/xtrabackup_checkpoints
问题描述：mysql在执行innobackupex增量备份时报错cannotopen*****/xtrabackup_checkpoints，如下所示：数据库：mysql5.7.21说明：此次测试环境为从节点.1、异常重现[mysql@mysql-leo-perslave~]$/usr/bin/innobackupex--defaults-file=/home/mysql/etc/my.cnf--socket=/mysql/da......
Flink介绍
1什么是Flink官网定义：ApacheFlink isaframeworkanddistributedprocessingengineforstatefulcomputationsover unbounded and bounded datastreams.Flinkhasbeendesignedtorunin allcommonclusterenvironments,performcomputationsat in-memory s......
JVM调优篇：探索Java性能优化的必备种子面试题
JVM内存模型首先面试官会询问你在进行JVM调优之前，是否了解JVM内存模型的基础知识。这是一个重要的入门问题。JVM内存模型主要包括程序计数器、堆、本地方法栈、Java栈和方法区（1.7之后更改为元空间，并直接使用系统内存）。正常堆内存又分为年轻代和老年代。在Java虚拟机中，年轻代用......
项目优化调优
啊一个用户充值时会有多种优惠，默认给用户最高的，为了提升这方面的速度，采用countDownLatch每种优惠计算一下最后金额，返回最低金额。40ms降到20ms 立减的时候，qps较高，还是用多线程降低rt，但是并没有降，load急速上升。拆分表，按业务拆分春节档玩法多，某个值到了才能参加活......
HBase Compaction 原理与线上调优实践
作者：vivo互联网存储技术团队-HangZhengbo本文对HBaseCompaction的原理、流程以及限流的策略进行了详细的介绍，列举了几个线上进行调优的案例，最后对Compaction的相关参数进行了总结。一、Compaction介绍HBase是基于一种LSM-Tree（Log-StructuredMergeTree）体系架构的存储模......
Flink 容错机制保存点和检查点
Flink检查点常用配置：//配置检查点env.enableCheckpointing(180000);//开启checkpoint每180000ms一次env.getCheckpointConfig().setMinPauseBetweenCheckpoints(50000);//确认checkpoints之间的时间会进行50000msenv.getCheckpointConfig().setCheckpointTimeout(60......
java笔记_11_JVM调优参数(转载）
-Xms2048m//设置jvm的初始内存。这个值最好设置的跟-Xmx相同，以避免每次垃圾回收完成后JVM都要重新分配内存-Xmx2048m//JVM最大可用内存-XX:PermSize=256M//设置持久代大小-XX:MaxPermSize=512M//设置最大持久代大小-XX:+PrintGCDetails-XX:+PrintGCDat......
linux服务器性能调优(udp为主)
udp的好处很明显，效率高，减少了建立连接的流程，减少了报文头的占比，也减少了维护连接的开销。缺点就是不稳定，会丢包。还有就是由于udp的高效，导致用于udp的一些应用开发，并发都比较大，更容易丢包。io复用SO_REUSEADDRSO_REUSEPORT创建listener用来监听数据时，有时候需要配置io复用。也......
一文弄懂Flink CDC
1.CDC概述CDC（ChangeDataCapture）是一种用于捕获和处理数据源中的变化的技术。它允许实时地监视数据库或数据流中发生的数据变动，并将这些变动抽取出来，以便进行进一步的处理和分析。传统上，数据源的变化通常通过周期性地轮询整个数据集进行检查来实现。但是，这种轮询的方式效率低下且......

Flink调优-Checkpoint优化

1 Checkpoint的介绍

2 Checkpoint的运行机制

2.1 Flink Barrier

相关文章

赞助商

阅读排行