首页 > 其他分享 >Flink 的 checkpoint 机制对比 spark 有什么不同和优势?

Flink 的 checkpoint 机制对比 spark 有什么不同和优势?

时间:2023-06-14 15:56:46浏览次数:46  
标签:快照 Flink checkpoint spark 数据 机制

spark streaming 的 checkpoint 仅仅是针对 driver 的故障恢复做了数据和元数据的 checkpoint。

而 flink 的checkpoint 机制要复杂很多,它采用的是轻量级的分布式快照,实现了每个算子的快照,及流动中的数据的快照。

标签:快照,Flink,checkpoint,spark,数据,机制
From: https://www.cnblogs.com/gouhaiping/p/17480482.html

相关文章

  • kettle和Flink做ETL的区别
    Kettle和Flink都可以用于ETL(抽取、转换和加载)处理,但它们有一些不同之处。Kettle是一款基于图形化界面的ETL工具,可以通过拖放组件的方式来设计和构建ETL流程。它提供了大量的内置组件和步骤,可以用于处理各种数据源和格式。Kettle的优点是易于使用和学习,适合于小型数据处理任务和快......
  • 聊聊Flink必知必会(二)
    Checkpoint与BarrierFlink是一个有状态的流处理框架,因此需要对状态做持久化,Flink定期保存状态数据到存储空间上,故障发生后从之前的备份中恢复,这个过程被称为Checkpoint机制。而Checkpoint为Flink提供了Exactly-Once的投递保障。流处理是一个数据不断输入的过程,为了更好更方便的......
  • flink 源代码启动
    Flink源码编译启动 背景纯小白新手入门flink,由于自身基础差底子薄,启动个源码各种查资料找资源,终于启动好了值得记录一下,本文源码启动是基于idea+jdk8+maven在windows上启动flink1.16源码。(1)下载源码源码地址:https://github.com/apache/flink/tree/release-1.16(2)项目编译首先......
  • 【MySQL的CheckPoint技术】
    MySQL的CheckPoint(CheckPoint)技术,又称"redolog"(Redolog),是MySQL数据库的核心技术之一,其目的是在发生故障或故障时,保证数据库中存储的数据可以得到有效的修复。对数据库进行的修改,包括写入,更新,删除等,都要进行相应的文档化,以确保数据在任何时候都是一致的。如何使用MySQL检查......
  • 关于Digispark安装驱动后插入在设备管理器的“通用串行总线设备”分类下显示为“micro
    依据micronucleus的github和查询到的另一些资料解决了该问题,在此处备份防止遗忘。前往https://zadig.akeo.ie/下载Zadig,然后从micronucleus的github下载micronucleus.cfg。打开Zadig,在菜单栏中选择Device-LoadPresetDevice,选择刚刚下载的cfg,然后在下方点击小箭头选择libusb-w......
  • 聊聊Flink的必知必会(一)
    概述Flink是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。使用官网的语句来介绍,Flink就是“StatefulComputationsoverDataStreams”。首先,Flink是一个纯流式的计算引擎,它......
  • 实例讲解Flink 流处理程序编程模型
    摘要:在深入了解Flink实时数据处理程序的开发之前,先通过一个简单示例来了解使用Flink的DataStreamAPI构建有状态流应用程序的过程。本文分享自华为云社区《Flink实例:Flink流处理程序编程模型》,作者:TiAmoZhang。在深入了解Flink实时数据处理程序的开发之前,先通过一个简单......
  • 如何在Spark中使用动态数据转置
    DynamicTranspose是Spark中的一个关键转换,因为它需要大量的迭代。本文将为您提供有关如何使用内存中运算符处理此复杂方案的清晰概念。首先,让我们看看我们拥有的源数据: idoc_number,订单ID,idoc_qualifier_org,idoc_org7738,2364,6,07738,2364,7,07738,2364,8,mystr17738,2364,12,myst......
  • SparkUI中的Peak Pool Memory Direct / Mapped (直接缓冲池和映射缓冲池)
      PeakPoolMemoryDirect/Mapped --直接缓冲池和映射缓冲池峰值内存##什么是直接缓冲池和映射缓冲池?在Java中,有两种类型的缓冲池:直接缓冲池和映射缓冲池。直接缓冲池1)从堆外内存分配,不受JVM管理2)占用内存较多3)相比从JVM复制数据到本地,性能更高 映射缓冲池1)将文......
  • spark on yarn 读取hdfs文件报错
    前提读取的文件已经put到hdfs上了,还是报错,仔细想想,为什么两个读取文件只报后面那个读取文件不存在呢?看代码,是读取的方式不同,前面一个是通过sparkcontext读取,后面是file,所以情况应该是只有通过spark生成的对象sc读取才可以,带着这个思路,修改代码,才运行成功。JavaRDD<String>linesR......