首页 > 其他分享 >Azure Data Factory(九)基础知识回顾

Azure Data Factory(九)基础知识回顾

时间:2023-09-25 14:35:04浏览次数:30  
标签:Data IR Factory ADF Azure 数据

一,引言

  在本文中,我们将继续了解什么是 Azure Data Factory,Azure Data Factory 的工作原理,Azure Data Factory 数据工程中的数据管道,并了解继承运行时 ----- IR。

--------------------我是分割线--------------------

1,Azure Data Factory(一)入门简介

2,Azure Data Factory(二)复制数据

3,Azure Data Factory(三)集成 Azure Devops 实现CI/CD

4,Azure Data Factory(四)集成 Logic App 的邮件通知提醒

5,Azure Data Factory(五)Blob Storage 密钥管理问题

 6,Azure Data Factory(六)数据集类型为Dataverse的Link测试

7,Azure Data Factory(七)数据集验证之用户托管凭证

8,Azure Data Factory(八)数据集验证之服务主体(Service Principal)

9,Azure Data Factory(九)基础知识回顾

二,正文

1,什么是 Azure Data Factory ?  

  Azure Data Factory 是一种基于云的数据继承服务,允许组织城建,计划和编排数据管道。Azure Data Factory 提供了可视化界面或基于代码的方式来集成来自各种来源的数据,对其进行转化和处理,然后再将其加载到数据目标存储中。

  Azure Data Factory 支持广泛的数据源,包括本地和基于云上的数据源,例如  Sql Server,Azure Blob,Dataverse 等等,它还提供数据移动,数据转化,监控和管理等功能,使其成为数据集成的综合解决方案。

2,ADF 的工作原理是什么?

  Azure 数据工厂 (ADF) 通过提供可视化界面或基于代码的方法来定义、计划和执行数据管道。这些管道可用于执行各种任务,包括数据移动和转换。

以下是 ADF 工作原理所涉及的步骤:

  1. 创建数据工厂:第一步是在 Azure 中创建数据工厂。这可以在 Azure 门户中或使用 Azure CLI 完成。
  2. 定义数据源和目标:创建数据工厂后,您需要定义要在管道中使用的数据源和目标。数据源可以是本地的或基于云的,目标可以是 Azure Data Lake Storage、Azure Blob 存储或 Azure SQL 数据库。
  3. 创建管道:管道是 ADF 的构建块。它们定义了移动和转换数据所需的步骤。可以在 ADF 可视化界面中或使用 Azure 数据工厂 SDK 创建管道。
  4. 计划管道:可以安排管道定期运行或按需运行。这允许您自动执行数据管道。
  5. 监视管道:ADF 提供监视功能,以便您可以监视管道的状态、查看日志并管理已处理的数据。

  ADF 是一个功能强大的工具,可以帮助您为各种数据集成场景构建、调度和编排数据管道。对于需要的各种规模的组织来说,这是一个不错的选择到集成来自各种来源的数据并将其加载到各种目标中。

这里有一些额外的细节关于 ADF 的工作原理:

  • 数据连接器:ADF 支持各种数据连接器,包括本地数据源和基于云的数据源。这使得您可以轻松地将来自各种来源的数据集成到数据管道中。
  • 数据转换:ADF 提供各种数据转换活动,例如复制数据、转换数据和运行脚本。这可以让你到根据以下内容操纵和塑造您的数据到您的需求。
  • 调度和监控:ADF 提供调度和监控功能,因此您可以自动执行数据管道并监控数据的状态。这有助于您确保数据管道按预期运行并且数据始终是最新的。
  • 集成运行时:ADF 提供集成运行时,负责执行管道中的活动。集成运行时分为三种类型:Azure IR、自托管 IR 和 Azure-SSIS IR。这使您可以根据您的特定需求选择正确的集成运行时。
  • 安全功能:ADF 提供多种安全功能到保护您的数据,例如数据加密和访问控制。这可以帮助您确保您的数据安全并且只能访问到授权用户。

3,Azure 数据工厂中的数据管道

  ADF 中的管道是数据集成的构建块,使您能够到自动执行复杂的任务,例如数据移动、转换和决策。管道由一项或多项活动组成,它们是 ADF 中的基本工作单元。有多种类型的活动可供选择,每种活动都经过精心设计到执行特定任务。

  1)数据移动:
使用复制数据活动到从一个移动数据地点 到其他。此活动支持广泛的数据源和目标,包括本地数据源和基于云的数据源。通过复制数据活动,您可以执行从源数据存储复制数据等操作到目标数据存储或从其中复制数据地点 到数据存储中的另一个。

  2)数据转换:
ADF 提供了多种转型活动,使您能够到操纵和塑造您的数据。例如,您可以使用派生列活动到基于表达式、Lookup 活动创建新列到从另一个数据源检索数据,以及聚合活动到汇总数据。ADF 还支持使用 Azure Databricks 或 Azure Functions 进行基于代码的转换,为您提供灵活性到创建量身定制的自定义转换到您的具体需求。

1,控制流:
管道可以包括控制流活动,使您能够到根据条件执行操作。例如,您可以使用 If Condition 活动到根据表达式的结果或 For Each 活动执行不同的活动到对集合中的每个项目执行相同的一组活动。这些活动可以让你到创建可以适应的复杂工作流程到改变数据和条件。

2,依赖关系:
管道可以包括依赖关系活动之间,它决定活动执行的顺序。例如,您可以指定一个活动只能在另一个活动完成后启动,或者多个活动应并行运行。这些依赖关系让你到创建高效的工作流程,最大限度地减少延迟并最大限度地提高资源利用率。

3,监控和管理:
  ADF 提供强大的监控和管理功能,使您能够到监视管道的状态、查看日志并管理已处理的数据。您可以在 ADF 可视化界面中查看管道、活动和数据集的状态,或使用 Azure 数据工厂 REST API 以编程方式检索状态信息。这可以让你到快速识别任何问题或瓶颈并采取纠正措施到确保您的数据集成工作流程顺利运行。

4,了解集成运行时 (IR)

  集成运行时 (IR) 是 Azure 数据工厂 (ADF) 的基本组件,可帮助您到轻松执行和管理数据集成工作流程。IR 提供了一个安全、可扩展且受管理的环境,用于运行管道中指定的活动,例如数据移动和转换任务。

让我们更深入地研究 Integration Runtime 在 ADF 中的作用:

目的: IR 的主要目标是到为执行数据集成活动提供安全、托管且可扩展的环境。通过抽象基础设施和网络复杂性,IR 使您能够到只专注于构建数据集成逻辑,而不用担心底层细节.

类型:它负责执行管道中的活动。IR 分为三种类型:

  • Azure IR:此 IR 用于基于云的数据源和目标之间的数据集成。
  • 自托管 IR:此 IR 用于本地和基于云的数据源和目标之间的数据集成。
  • Azure-SSIS IR:此 IR 用于需要托管环境来执行 SQL Server Integration Services (SSIS) 包的数据集成方案。

安全性:IR 非常重视安全性,自动处理网络安全和数据加密问题。此外,IR 支持 Azure Active Directory (AAD) 身份验证,使您能够到使用 AAD 凭据安全地访问数据源和目标。

可扩展性:IR设计到应对可扩展性挑战,自动调整基础设施和网络资源到满足您的数据集成任务的需求。例如,IR 可以在峰值负载期间自动增加集群中的节点数量,并在负载下降时自动减少节点数量。

监控:IR提供实时监控和管理功能,使您到跟踪数据集成操作的性能和状态。您可以通过 ADF 可视化界面监视 IR、管道和活动,或使用 Azure 数据工厂 REST API 以编程方式检索状态信息。

总之,集成运行时是 Azure 数据工厂不可或缺的组件,为执行数据集成工作流提供安全、可扩展和托管的环境。借助 IR,您可以灵活、可扩展地执行数据集成操作,让工作变得更加轻松到满足您的数据集成场景的需求。

三,结尾

  今天我们继续介绍了 Azure Data Factory 的概念知识,集合前几期实践内容,能更好的了解 Azure Data Factory 常见的组件,更清晰的了解我们可以使用 Azure Data Factory 为我们的项目做哪些贡献了。

参考链接:Azure 数据工厂

作者:Allen 

版权:转载请在文章明显位置注明作者及出处。如发现错误,欢迎批评指正。

标签:Data,IR,Factory,ADF,Azure,数据
From: https://www.cnblogs.com/AllenMaster/p/17716093.html

相关文章

  • NineData SQL 窗口支持深色模式,让程序员不再怕长期用眼!
    您有没有尝试过被明亮的显示器闪瞎眼的经历? 在夜间或低光环境下,明亮的界面会导致许多用眼健康问题,例如长时间使用导致的眼睛疲劳、干涩和不适感,同时夜间还可能会抑制褪黑素分泌,给您的睡眠质量带来影响。 这些问题对于长期使用电脑的程序员来说是真实存在且对健康非常不利的......
  • Python dataclass 如何让传入的 field 为 None 时自动转化为默认值?
    一般dataclass的字段可以设置default或default_factory生成默认值,当传入参数时,默认值不会生效。但是,有些情况下受限于外部调用环境,某些参数缺失时,以None的形式存在,而非创建dataclass实例时不传入参数。这种情况下,可能会希望传入的None被识别到并转化为默认值。fromd......
  • ES报错:[parent] Data too large, data for [<http_request>] would be larger than limi
    ES报错:[parent]Datatoolarge,datafor[<http_request>]wouldbelargerthanlimitofXXXX  当es这个错误的时候:[parent]Datatoolarge,datafor[<http_request>]wouldbelargerthanlimitof[23941899878/22.2gb],with{bytes_wanted=23941987633bytes_l......
  • 火山引擎DataLeap推出两款大模型应用: 对话式检索与开发 打破代码语言屏障
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 自上世50年代,以“计算机”作为代表性象征的信息革命开始,社会对于先进生产力的认知便开始逐步更迭——从信息化(通常认为是把企业中的信息资源与信息技术有机结合,从而提高企业的管理水......
  • MySQL的配置文件中关于basedir和datadir的说明
    在MySQL的配置文件my.ini或者my.cnf文件中1、basedir参数原文说明为:Pathtoinstallationdirectory.Allpathsareusuallyresolvedrelativetothis.解释:该参数指定了安装MySQL的安装路径,填写全路径可以解决相对路径所造成的问题。例如:basedir="E:/dev/MySQL/MySQLS......
  • from sklearn.datasets.samples_generator import make_blobs
     fromsklearn.datasets.samples_generatorimportmake_blobsmake_blobs方法:sklearn.datasets.make_blobs(n_samples=100,n_features=2,centers=3,cluster_std=1.0,center_box=(-10.0,10.0),shuffle=True,random_state=None)make_blobs函数是为聚类或分类产生数据集,产生一......
  • 数据恢复神器EaseUSDataRecovery数据恢复软件技术终身版免费下载
    EaseUSDataRecovery数据恢复软件免费版是一款优秀的数据恢复工具,可以帮助我们找回因各种原因丢失的数据。如果您正在被数据丢失问题所烦恼,请立刻免费下载数据恢复软件,开始进行数据恢复吧。数据恢复软件终身版本数据恢复软件免费版可以帮助用户找回因删除、格式化、分区丢失、分区损......
  • 易我数据恢复EaseUS Data Recovery Wizard 16.0技术员终身版你的数据恢复神器
    易我数据恢复EaseUSDataRecoveryWizard16.0技术员终身版为全球提供数据恢复方案,用于误删数据数据,电脑误删文件恢复,格式化硬盘数据恢复、手机U盘数据恢复等。RAID磁盘阵列数据恢复,分区丢失及其它未知原因丢失的数据恢复、简单易用轻松搞定数据恢复。EaseUSDataRecoveryWizar......
  • 【3.0】Pandas DataFrame入门
    【一】引入DataFrame是Pandas的重要数据结构之一,也是在使用Pandas进行数据分析过程中最常用的结构之一,可以这么说,掌握了DataFrame的用法,你就拥有了学习数据分析的基本能力。【二】认识DataFrame结构DataFrame一个表格型的数据结构,既有行标签(index),又有列标签(columns),......
  • DataLab
    DataLab本实验主要考察位运算,以及浮点数的表示和计算,由于智商和经验不够,做了很久才只做了前9道题总结之前位运算用的少,此次实验后熟悉了一些。和逻辑运算有一些区别,做的过程中因为没分清犯了些错。例如&|当成逻辑运算使用,并且移位运算符会把符号位的值直接左右覆盖,例如int......