Apache Beam基本架构

时间：2022-11-07 21:32:12浏览次数：60

标签：Pipeline 架构 Runner Beam 引擎计算 Apache

Apache Beam主要由Beam SDK和Beam Runner两部分组成。Beam SDK定义了开发分布式数据处理程序业务逻辑的API，它描述的分布式数据处理任务Pipeline则交给具体的Beam Runner（执行引擎）进行计算。

Apache Beam基本架构_Apache Beam

1、Beam SDK

Beam SDK是一套大数据处理统一编程接口，它通过对“有限数据流”和“无限数据流”进行了统一抽象，规范了批处理和流式处理两种大数据计算范式。Beam SDK提供了以下4种计算抽象帮助用户构建数据管道。

1）Pipeline。Pipeline封装了整个数据处理逻辑的计算过程，包括数据输入、处理以及输出三部分。每个Beam应用程序必须创建一个Pipeline，并定义其运行相关的配置选项（比如采用的计算引擎以及计算引擎相关的参数等）以便告诉Pipeline如何运行。

2）PCollection。PCollection是分布式数据集的抽象。在Beam中，数据集可以是有限的（bounded），即来自固定数据源，比如HDFS上的文件；也可以是无限的（unbounded），即来自不断更新的数据源，比如Kafka消息队列。Pipeline通常通过读取外部数据源构建一个初始的PCollection。Pipeline中每个阶段的输入和输出均为PCollection。

3）Transform。Transform是Pipline中的一个数据处理操作或步骤。每个Transform以一个或多个PCollection对象作为输入，依次遍历其中的每个元素并作用在用户定义的函数上，最终产生一个或多个PCollection对象。

4）IO Source与Sink。Source和Sink是对数据读取和结果存储逻辑的抽象。Source封装了从外部数据源（比如HDFS或Kafka）读取数据到Pipeline相关的代码逻辑；Sink封装了将PCollection写入外部存储系统相关的代码逻辑。

一个基本的Beam Pipeline工作流如图所示：

Apache Beam基本架构_Apache Beam_02

总体上讲，这些计算引擎在数据格式化、数据序列化及数据转换方面拥有不同的抽象，而Beam作为构建在计算引擎之上的高级抽象，充分借鉴了各个计算引擎的优势，尽可能做到更强的通用性。

2、Beam Runner

利用Beam SDK编写的计算逻辑代码是独立于具体分布式计算引擎的，用户可根据自己的需要将其运行在指定的计算引擎上。Apache Beam支持的底层执行引擎包括Apache Flink、Apache Spark、Apache Apex以及Google Cloud Platform等。Runner是Apache Beam对后端计算引擎的抽象，目前提供了Direct、Flink、Spark、Apex以及Cloud Datafl ow等计算引擎的Runner实现。

Direct Runner：Apache Beam自带的简易Runner实现，可将用户逻辑代码运行在本地，通常用于本地调试和测试。
Flink Runner：Apache Flink是一个开源的流式计算引擎，它将批处理转化成流处理问题，进而统一了批处理与流处理两种计算场景。
Spark Runner：Apache Spark是一个开源的DAG计算引擎，它将流处理问题转化为批处理问题，进而统一了批处理与流处理两种计算场景。
Apex Runner：Apache Apex是一个构建在YARN之上的批处理与流处理统一计算引擎，其设计思想与Apache Flink类似。

随着新型计算引擎的不断涌现，Beam Runner的优势变得愈发明显。它通过一个适配层将任意计算引擎接入Beam SDK，进而使得应用层逻辑代码无需任何修改便可运行在其他计算引擎上。

标签：Pipeline,架构,Runner,Beam,引擎,计算,Apache
From： https://blog.51cto.com/key3feng/5831414

使用角色部署lamp架构
使用角色部署lamp架构apache部署创建角色[root@ansibleroles]#ansible-galaxyinitapache-Roleapachewascreatedsuccessfully[root@ansibleroles]#ansible-......
LAMP架构
一、LAMP架构简述LAMP架构是目前成熟的企业网站应用模式之一，指的是协同工作的一整台系统和相关软件，能够提供动态web站点服务及其应用开发环境，LAMP是一个缩写词，具体包括Lin......
【分布式技术专题】「架构实践于案例分析」盘点分布式服务的（无状态\有状态）认证实现方
⽆状态vs有状态有状态、⽆状态是什么有状态：服务器端需要保存请求的相关信息，每个请求可以默认地使⽤以前的请求信息⽆状态：服务器端不记录请求的相关信息，服务器处理的内容完......
一图看懂企业大数据平台核心架构，值得参考！
我们先来看看这张图，这是某公司使用的大数据平台架构图，大部分公司应该都差不多：从这张大数据的整体架构图上看来，大数据的核心层应该是：数据采集层、数据存储与分析层、数......
京东云开发者｜软件架构可视化及C4模型：架构设计不仅仅是UML
软件系统架构设计的目标不在于设计本身，而在于架构设计意图的传达。图形化有助于在团队间进行高效的信息同步，但不同的图形化方式需要语义一致性和效率间实现平衡。C4模型通......
初识微服务(技术栈、单体、分布式架构)、SpringCloud
(目录)微服务技术栈从单体架构过度到微服务架构，需要一系列中间技术支撑，其中重要的部分包括：注册中心：Eureka、Zookeeper、Nacos服务网关：Zuul、Gateway微服务远程调......
api网关 & 微服务架构 & 延迟服务
----------------------网关-----------------------字节跳动kube-apiserver高可用方案KubeGateway EnvoyGateway会成为网关现有格局的冲击者吗？|专访Envoy创始......
华为云 MRS 基于 Apache Hudi 极致查询优化的探索实践
背景湖仓一体（LakeHouse）是一种新的开放式架构，它结合了数据湖和数据仓库的最佳元素，是当下大数据领域的重要发展方向。华为云早在2020年就开始着手相关技术的预研，并落地在华......
云运维核心技术应知应会-01_主流平台架构
什么是云服务？基于网络相关服务的增加、使用和交互的模式，通过互联网来提供动态、易拓展、虚拟化的资源。服务模式云服务提供的方式主要有Iaas、Paas、Saas三种Iaas：提......
【博学谷学习记录】超强总结，用心分享|狂野架构kafka消费者分配策略
消费者分配策略一个consumergroup中有多个consumer，一个topic有多个partition，所以必然会涉及到partition的分配问题，即确定哪个partition由哪个consumer来消费，Kafka提供了......

Apache Beam基本架构

1、Beam SDK

2、Beam Runner

相关文章

赞助商

阅读排行