Flink概述

Apache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行状态计算

Flink特点

事件驱动（Event-driven）

事件驱动型应用是一类具有状态的应用，它从一个或多个事件流提取数据，并根据到来的事件触发计算、状态更新或其他外部动作
比较典型的就是以kafka为代表的消息队列几乎都是事件驱动型应用
应用程序能够对实时数据流做出快速响应
例如，假设系统需要识别短时间内先出现小额交易后紧跟大额交易的模式，这可能是信用卡被盗用的迹象，Flink程序会持续监控交易事件流，当检测到这种模式时，就会触发一个警报，并可能阻止进一步的交易，直到情况得到验证

流和批的思想

批处理：有界、持久、大量，非常适合需要访问全套记录才能完成的计算工作，一般用于离线统计
流处理：无界、实时, 无需针对整个数据集执行操作，而是对通过系统传输的每个数据项执行操作，一般用于实时统计
无界数据流：无界数据流有一个开始但是没有结束，它们不会在生成时终止并提供数据，必须连续处理无界流，也就是说必须在获取后立即处理event，处理无界数据通常要求以特定顺序（例如事件发生的顺序）获取event，以便能够推断结果完整性
有界数据流：有界数据流有明确定义的开始和结束，可以在执行任何计算之前通过获取所有数据来处理有界流，处理有界流不需要有序获取，因为可以始终对有界数据集进行排序，有界流的处理也称为批处理

Spark VS Flink

在spark的世界观中，一切都是由批次组成的，离线数据是一个大批次，而实时数据是由一个一个无限的小批次组成的
在flink的世界观中，一切都是由流组成的，离线数据是有界限的流，实时数据是一个没有界限的流，这就是所谓的有界流和无界流

分层API

Flink提供了分层API，以适应不同类型的数据处理需求和用户偏好
Stateful Stream Processing：这是最底层的API，提供了ProcessFunction，允许开发者进行有状态的流处理。它提供了对时间和状态的细粒度控制，适用于需要管理复杂状态和定时器的场景
Core API：包括了DataStream API和DataSet API，这些API提供了数据处理的基本操作，如数据转换、分组、聚合、窗口和状态管理，DataStream API用于流处理，而DataSet API用于批处理
Table API & SQL：Table API是一个基于表的声明式DSL，它提供了关系型数据模型和类似SQL的操作，如select、project、join、group-by等，Table API可以在流和批数据上以相同的语义执行查询，并产生相同的结果，SQL API则允许用户直接使用SQL语句进行数据处理，而无需编写Java或Scala代码

标签：有界流,处理,Flink,API,概述,数据流,数据
From： https://www.cnblogs.com/shihongpin/p/18431224

利用 Flink CDC 实现实时数据同步与分析
1.概述1.1简要介绍什么是FlinkCDC（ChangeDataCapture）FlinkCDC（ChangeDataCapture）是一种用于实时捕获和处理数据库中数据变更的技术。它通过监控数据库的变更事件，将这些事件转化为流式数据，使得数据处理系统（如ApacheFlink）能够以流的方式实时处理和分析数据。FlinkC......
Gymnasium 学习笔记：gymnasium.Env 概述
简要介绍Gymnasium的整体架构和个模块组成。Gymnasium提供了强化学习的环境，下面主要介绍gymnasium.Env和gymnasium.MujocoEnv两个类。1.gymnasium.Envgymnasium.Env(Generic[ObsType,ActType])是环境的基类，其是泛型类，其可以接受ObsType和ActType两个类型，分别对应......
Flink CDC介绍：基于流的数据集成工具
FlinkCDC是一个基于流的数据集成工具，旨在为用户提供一套功能更加全面的编程接口（API）。该工具使得用户能够以YAML配置文件的形式，优雅地定义其ETL（Extract,Transform,Load）流程，并协助用户自动化生成定制化的Flink算子并且提交Flink作业。FlinkCDC在任务提交过程中......
【SpringBoot】@Validated @Valid 参数校验概述以及使用方式
1 前言最近在思考SpringBoot中的参数校验，比如我们写一段业务代码，首要的就是校验参数，单据编码空不空，数量空不空，客户空不空等，最简单的就是单独抽个方法逐个进行ifelse校验，高级点的整个校验工厂，当需要校验某种业务的时候，拿到校验器来校验，可以是简单工厂或者工厂方法都可以实......
尚硅谷-flink
一、介绍1.简介flink是一个开源的分布式流处理框架优势：高性能处理、高度灵活window操作、有状态计算的Exactly-once等详情简介，参考官网：https://flink.apache.org/flink-architecture.html中文参考：https://flink.apache.org/zh/flink-architecture.......
flink 大批量任务提交 yarn 失败问题
问题现象用户迁移到新集群后,反馈他们开发平台大量flink任务提交失败了,当时集群的yarn资源是足够的排查过程用户是在他们的开发平台上提交的,查看他们失败的任务,发现是他们提交端主动Kill的,接着沟通发现他们提交平台有个逻辑就是提交到yarn的flink任务,如果在2......
Spark学习（一）：概述
Spark学习（一）：概述上周六面试腾讯时被问到是否了解Spark，彼时对Spark毫无接触故答不了解，面试结束后了解到Spark与MapReduce渊源颇深，去年夏天学习MIT6.824分布式系统设计时曾深入学习过MapReduce（分布式学习：MapReduce-pinoky-博客园(cnblogs.com)）故对Spark产生兴趣，由此开始学习......
数据结构 - 概述及其术语
经过上一章节《数据结构与算法之间有何关系？》的阐述，相信大家对数据结构多少有了点了解，今天我们将进入数据结构的正式学习中。在计算机科学中，数据结构是一种数据管理、组织和存储的格式。它是相互之间存在一种或多种特定关系的数据元素的集合。在计算机中一个静态数据是没有灵魂......
Transact-SQL概述（SQL Server 2022）
新书速览|SQLServer2022从入门到精通：视频教学超值版_sqlserver2022出版社-CSDN博客《SQLServer2022从入门到精通（视频教学超值版）（数据库技术丛书）》(王英英)【摘要书评试读】-京东图书(jd.com)SQLServer数据库技术_夏天又到了的博客-CSDN博客在前面的章节中，其实已......
第23篇委托的概述
什么是委托？委托可以说是把一个方法代入另一个方法执行，相当于指向函数的指针；事件就相当于保存委托的数组；1.实例化委托的方式：方式1：通过new创建实例：publicdelegatevoidShowDelegate();或者publicdelegatestringShowDelegate(stringstr);ShowDelegated=newShowDele......

Flink（一）概述

Flink概述

Flink特点

事件驱动（Event-driven）

流和批的思想

分层API

相关文章

赞助商

阅读排行