客快物流大数据项目(四十)：ETL实现方案

时间：2024-03-29 17:57:42浏览次数：29

标签：实时性数据库客快四十使用 Kudu 数据 ETL

ETL实现方案

一、ETL处理流程图

二、为什么使用Kudu作为存储介质

ETL实现方案

一、ETL处理流程图

数据来源：

来自于ogg同步到kafka的物流运输数据
来自于canal同步到kafka的客户关系数据

二、为什么使用Kudu作为存储介质

数据库数据上的快速分析

目前很多业务使用事务型数据库（MySQL、Oracle）做数据分析，把数据写入数据库，然后使用 SQL 进行有效信息提取，当数据规模很小的时候，这种方式确实是立竿见影的，但是当数据量级起来以后，会发现数据库吃不消了或者成本开销太大了，此时就需要把数据从事务型数据库里拷贝出来或者说剥离出来，装入一个分析型的数据库里。发现对于实时性和变更性的需求，目前只有 Kudu 一种组件能够满足需求，所以就产生了这样的一种场景：

MySQL 数据库增、删、改的数据通过 Binlog 实时的被同步到 Kudu 里，同时在 Impala（或者其他计算引擎如 Spark、Hive、Presto、MapReduce）上可以实时的看到。这种场景也是目前业界使用最广泛的，认可度最高。

用户行为日志的快速分析

对于用户行为日志的实时性敏感的业务，比如电商流量、AB 测试、优惠券的点击反馈、广告投放效果以及秒级导入秒级查询等需求，按 Kudu 出现以前的架构基本上都是这张图的模式：

不仅链路长而且实时性得不到有力保障，有些甚至是 T + 1 的，极大的削弱了业务的丰富度。引入 Kudu 以后，大家看，数据的导入和查询都是在线实时的：

这种场景目前也是网易考拉和hub在使用的，其中hub甚至把 Kudu 当 HBase 来作点查使用。

标签：实时性,数据库,客快,四十,使用,Kudu,数据,ETL
From： https://www.cnblogs.com/shan13936/p/18104334

客快物流大数据项目（一百）：ClickHouse的使用 spark操作ClickHouse代码
ClickHouse的使用一、使用Java操作ClickHouse1、构建maven工程2、导入依赖<dependency><groupId>ru.yandex.clickhouse</groupId><artifactId>clickhouse-jdbc</artifactId><version>0.2.2</v......
web学习笔记（四十七）
目录1.node.js中的三个全局变量1.1global1.2 __dirname 文件夹的绝对路径1.3 __filename 文件名的绝对路径2.模块化2.1什么是模块化2.2模块化的好处3.Node.js中模块化3.1 Node.js中的模块化规范4. Node.js中的模块作用域4.1module对象4.2 modul......
年过四十
九点上班，靠的是八点半的闹钟；吃点什么，随便点些，管它炒煎油炸；十点上床，睡着，不知是哪个点的事；干点什么，得老板吩咐，管它轻重缓急。等着下班，等着周末，等的是一年又一年；等着儿女长大，等着父母老去…… 当你没有目标的时候，还管什么早睡早起，还管什么健康营养，还管什么晋......
ETLCloud结合Oracle实现CDC
CDC，即Change Data Capture（变更数据捕获）功能，主要针对实时数据同步和更新场景，能够实时监测数据库中的数据变化，并将发生变化的数据进行高效精准地捕获和传输，极大地提高了数据处理的效率以及系统的响应速度。在实际应用中，CDC功能对于对数据时效性要求极高的业务场景尤为关键，例如金......
ETL工具-nifi干货系列第五讲处理器GenerateFlowFile
1、今天我们一起来学习处理器GenerateFlowFile。这个处理器创建带有随机数据或自定义内容的FlowFiles。GenerateFlowFile对于负载测试、配置和模拟非常有用。从工具栏拖动处理器到画布，然后选择GenerateFlowFile即可。 2、点击add按钮或者双击 GenerateFlowFile可将此处理器......
Centos7修改默认网卡名（改为eth0）以及网卡启动报错RTNETLINK answers File exists处理
Centos7修改默认网卡名（改为eth0）以及网卡启动报错RTNETLINKanswers:Fileexists处理安装好centos7版本的系统后，发现默认的网卡名字有点怪，为了便于管理，可以手动修改。下面对centos7版本下网卡重命名操作做一记录：1.编辑网卡信息[root@web~]#cd/etc/sysconfig/network-scripts/......
【数据库】如何利用Python中的petl将PostgreSQL中所有表的外键删除，迁移数据，再重建外键
一、简介在数据库管理中，外键是一种重要的约束，用于确保数据的一致性和完整性。然而，在某些情况下，我们可能需要删除或修改外键。本文将介绍如何使用Python中的petl库将PostgreSQL中所有表的外键删除，迁移数据，并重新建立外键。二、安装petl和psycopg2首先，我们需要安装petl和psycopg2......
ETL工具-nifi干货系列第四讲 Avro schema 序列化框架
一、在使用nifi的过程中会使用到遇到avroschema、avrodata、avroReader、avroWriter等，所以本节课和大家一起学习下avro相关知识。二、什么是AvroApacheAvro是hadoop中的一个子项目，也是一个数据序列化系统，其数据最终以二进制格式，采用行式存储的方式进行存储。三、什么......
cloudquery 开源ETL 框架
cloudquery开源ETL框架提供了基于plugin的数据集成模式包含的特性开源，提供了sdk快速，基于golang轻量级协程,基于apachearrow部署方便，就是一个独一的二进制文件可扩展，cloudqueryplugin是无状态的，可以方便的扩展说明cloudquery可以应用的场景还是比较多的，但是目前一......
ETL工具-nifi干货系列第三讲 nifi web ui 使用教程
1、nifi服务启动之后，浏览器输入https://localhost:8443/nifi ,匿名登录或者输入用户名密码进入操作页面，如下图所示：2、组件工具栏处理器,鼠标放到图标上提示Processor，里面里面有各种各样的组件，可以实现各种各样的功能。拖拉处理器到画布中，出现处理器选择列表，可以根据处理......

客快物流大数据项目(四十)：ETL实现方案

ETL实现方案

一、ETL处理流程图

二、为什么使用Kudu作为存储介质

相关文章

赞助商

阅读排行

客快物流大数据项目(四十)：ETL实现方案

ETL实现方案

一、​​​​​​​ETL处理流程图

二、为什么使用Kudu作为存储介质

相关文章

赞助商

阅读排行

一、ETL处理流程图