首页 > 其他分享 >ETL (Extra-Transform-Load)

ETL (Extra-Transform-Load)

时间:2023-12-01 16:22:43浏览次数:32  
标签:Load 魔力 开发人员 Kettle Transform 象限 数据 ETL

背景介绍

随着企业的发展,目前的业务线越来越复杂,各个业务系统独立运营。例如:CRM系统只会生产CRM的 数据;Billing只会生产Billing的数据。各业务系统之间只关心自己的数据,导致各业务系统之间数据相互独立,互不相通。一旦业务系统之间进行数据交互,只能通过传统的webservice接口之间进行数据通信。该种方式对人力成本、时间成本要求比较高。也就是说:需要成熟的开发人员才能编写响应的webservice接口进行数据通信。而ETL的诞生就解决了此类问题,企业不需要技术很好、很成熟的开发人员一样可以完成该任务。而且可以比优秀的开发人员完成的更好,致使人力成本更低。这些都是企业所迫切需要的,有此诞生了ETL。

什么是ETL

ETL是将业务系统的数据经过抽取(Extract)、清洗转换(Transform)之后加载(Load)到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。

ETL 工作流程

 

1. 从源数据中抽取相关的数据(structure or unstructure: SQL, NoSQL, CRM, ERP, Flat Files, Email, pic, Web pages...)

2.对抽取后的数据进行清洗转换(Filtering, cleaning, calculating, conducting, removing, formating, encryping...), 以便于后续分析(DSS and BI, Decision Support Systems and Business Intelligence)

3.把清洗转转换后的的数据加载到目标数据库

 

ELT Tools

 

 一下是一些常用流行的ETL工具:

DataPipeline: 

一家为企业用户提供数据基础架构服务的科技公司,DataPipeline数据质量平台整合了数据质量分析、质量校验、质量监控等多方面特性, 以保证数据质量的完整性、一致性、准确性及唯一性,彻底解决数据孤岛和数据定义进化的问题。

Kettle:

Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

Kettle家族目前包括4个产品:Spoon、Pan、CHEF、Kitchen。

Talend:

Talend,是一家专业的开源集成软件公司,为企业提供开源的中间件解决方案,从而让企业能够在他们的应用,系统以及数据库中赢取更大的价值

Informatica:

Informatica是全球领先的数据管理软件提供商。在如下Gartner魔力象限位于领导者地位:数据集成工具魔力象限、数据质量工具魔力象限 、元数据管理解决方案魔力象限 、主数据管理解决方案魔力象限 、企业级集成平台即服务(EiPaaS)魔力象限。

Datax:

DataX 是离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。

Oracle Goldengate:

GoldenGate软件是一种基于日志的结构化数据复制软件。GoldenGate 能够实现大量交易数据的实时捕捉、变换和投递,实现源数据库与目标数据库的数据同步,保持亚秒级的数据延迟。

标签:Load,魔力,开发人员,Kettle,Transform,象限,数据,ETL
From: https://www.cnblogs.com/GlCh/p/17869973.html

相关文章

  • Transformer
    Attention什么是注意力机制?对于人类来说,注意力机制是在注意力有限的情况下,只关注接受信息的一部分,而忽略其他部分。对于Transformer来说,以NLP为例,注意力机制就是对于当前token来说,为其所在序列中对任务而言更重要的元素赋予更高权重(注意力)。感知机可以认为是对不同选项赋......
  • react 使用 antd 创建全局loading
    代码如下:importReactDOMfrom'react-dom';import{Spin}from'antd';exportconstshowGlobalLoading=()=>{constdom=document.createElement('div')dom.id='globalLoading'dom.style='widt......
  • 关于解决vue报错"Problems loading reference 'https://schemastore.azurewebsites.ne
    打开setting时会看到有一条三角形的警告信息 看问题描述:无法从该网站加载解决方法:打开设置,找到扩展下的json项 设置之后可以在settings.json文件中看到新增加一项 "json.schemaDownload.enable":false可以直接在界面上设置: "json.schemaDownload.enable":false......
  • 简化版Transformer来了,网友:年度论文
    前言 从大模型的根源开始优化。本文转载自机器之心仅用于学术分享,若侵权请联系删除欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。CV各大方向专栏与各个部署框架最全教程整理【CV技术指南】CV全栈指导班、基础入门班、论文......
  • ENTROFORMER: A TRANSFORMER-BASED ENTROPY MODEL基于transformer的熵模型
    目录简介模型核心代码性能实验简介\(\quad\)由于cnn在捕获全局依赖关系方面效率低,因此该文章提出了基于tansformer的熵模型——Entoformer;并针对图像压缩进行了top-kself-attention和adiamondrelativepositionencoding的优化;同时使用双向上下文模型加快解码。模型核心代......
  • 简化版Transformer :Simplifying Transformer Block论文详解
    在这篇文章中我将深入探讨来自苏黎世联邦理工学院计算机科学系的BobbyHe和ThomasHofmann在他们的论文“SimplifyingTransformerBlocks”中介绍的Transformer技术的进化步骤。这是自Transformer开始以来,我看到的最好的改进。大型语言模型(llm)可以通过各种扩展策略扩展其功......
  • transformer中decoder到底是串行还是并行
    在Transformer中,Decoder部分内部的不同层通常可以并行工作,这意味着每个Decoder层可以同时处理整个序列。比如,在处理Self-Attention时,模型可以同时计算所有位置的注意力权重。但在生成输出序列时,尽管Decoder内部的不同层可以并行工作,模型仍然需要按顺序逐步生成每个词。这是因为Tr......
  • v-loading 对滚动轴部分遮盖不全
    问题场景给有滚动轴的盒子添加了v-loading遮罩层,但发现:当盒子内容滚动到底部,刷新页面时,遮罩层无法覆盖盒子底部的区域。如下图所示:模板代码<divclass="content"v-loading="defLoading"> <el-formclass="form"> <!--此处代码省略--> </el-form></div&g......
  • 【友晶科技TERASIC】【翻译】SOC FPGA的SD卡IMAGE制作——4. 生成Preloaderc
      翻译原文来自:https://www.rocketboards.org/foswiki/Documentation/EmbeddedLinuxBeginnerSGuide......
  • hitomi Downloader 下载软件 下载失败解决办法
     下载国内的,不需要开启代理;下载国外的,需要开启代理; 开启代理方法:  科学S网软件有个终端代理选项,复制里面信息填入hitomi首选项的Network里面即可。 下载失败解决方法:  1、开启绕过DPI选项  2、    下载国内的,不需要开启代理;    下载国外的,需要开启代......