首页 > 其他分享 >客快物流大数据项目(四十):ETL实现方案

客快物流大数据项目(四十):ETL实现方案

时间:2024-03-29 17:57:42浏览次数:29  
标签:实时性 数据库 客快 四十 使用 Kudu 数据 ETL

目录

ETL实现方案

一、ETL处理流程图

二、为什么使用Kudu作为存储介质

ETL实现方案

一、​​​​​​​ETL处理流程图

数据来源:

  • 来自于ogg同步到kafka的物流运输数据
  • 来自于canal同步到kafka的客户关系数据

二、为什么使用Kudu作为存储介质

目前很多业务使用事务型数据库(MySQL、Oracle)做数据分析,把数据写入数据库,然后使用 SQL 进行有效信息提取,当数据规模很小的时候,这种方式确实是立竿见影的,但是当数据量级起来以后,会发现数据库吃不消了或者成本开销太大了,此时就需要把数据从事务型数据库里拷贝出来或者说剥离出来,装入一个分析型的数据库里。发现对于实时性和变更性的需求,目前只有 Kudu 一种组件能够满足需求,所以就产生了这样的一种场景:

MySQL 数据库增、删、改的数据通过 Binlog 实时的被同步到 Kudu 里,同时在 Impala(或者其他计算引擎如 Spark、Hive、Presto、MapReduce)上可以实时的看到。 这种场景也是目前业界使用最广泛的,认可度最高。

  • 用户行为日志的快速分析

对于用户行为日志的实时性敏感的业务,比如电商流量、AB 测试、优惠券的点击反馈、广告投放效果以及秒级导入秒级查询等需求,按 Kudu 出现以前的架构基本上都是这张图的模式:

不仅链路长而且实时性得不到有力保障,有些甚至是 T + 1 的,极大的削弱了业务的丰富度。 引入 Kudu 以后,大家看,数据的导入和查询都是在线实时的:

这种场景目前也是网易考拉和hub在使用的,其中hub甚至把 Kudu 当 HBase 来作点查使用。

标签:实时性,数据库,客快,四十,使用,Kudu,数据,ETL
From: https://www.cnblogs.com/shan13936/p/18104334

相关文章

  • 客快物流大数据项目(一百):ClickHouse的使用 spark操作ClickHouse代码
    ClickHouse的使用一、使用Java操作ClickHouse1、构建maven工程2、​​​​​​​导入依赖<!--Clickhouse--><dependency><groupId>ru.yandex.clickhouse</groupId><artifactId>clickhouse-jdbc</artifactId><version>0.2.2</v......
  • web学习笔记(四十七)
    目录1.node.js中的三个全局变量1.1global1.2 __dirname 文件夹的绝对路径1.3 __filename 文件名的绝对路径2.模块化2.1什么是模块化2.2模块化的好处3.Node.js中模块化3.1 Node.js中的模块化规范4. Node.js中的模块作用域4.1module对象4.2  modul......
  • 年过四十
    九点上班,靠的是八点半的闹钟;吃点什么,随便点些,管它炒煎油炸;十点上床,睡着,不知是哪个点的事;干点什么,得老板吩咐,管它轻重缓急。 等着下班,等着周末,等的是一年又一年;等着儿女长大,等着父母老去…… 当你没有目标的时候,还管什么早睡早起,还管什么健康营养,还管什么晋......
  • ETLCloud结合Oracle实现CDC
    CDC,即Change Data Capture(变更数据捕获)功能,主要针对实时数据同步和更新场景,能够实时监测数据库中的数据变化,并将发生变化的数据进行高效精准地捕获和传输,极大地提高了数据处理的效率以及系统的响应速度。在实际应用中,CDC功能对于对数据时效性要求极高的业务场景尤为关键,例如金......
  • ETL工具-nifi干货系列 第五讲 处理器GenerateFlowFile
    1、今天我们一起来学习处理器GenerateFlowFile。这个处理器创建带有随机数据或自定义内容的FlowFiles。GenerateFlowFile对于负载测试、配置和模拟非常有用。从工具栏拖动处理器到画布,然后选择GenerateFlowFile即可。 2、点击add按钮或者双击 GenerateFlowFile可将此处理器......
  • Centos7修改默认网卡名(改为eth0)以及网卡启动报错RTNETLINK answers File exists处理
    Centos7修改默认网卡名(改为eth0)以及网卡启动报错RTNETLINKanswers:Fileexists处理安装好centos7版本的系统后,发现默认的网卡名字有点怪,为了便于管理,可以手动修改。下面对centos7版本下网卡重命名操作做一记录:1.编辑网卡信息[root@web~]#cd/etc/sysconfig/network-scripts/......
  • 【数据库】如何利用Python中的petl将PostgreSQL中所有表的外键删除,迁移数据,再重建外键
    一、简介在数据库管理中,外键是一种重要的约束,用于确保数据的一致性和完整性。然而,在某些情况下,我们可能需要删除或修改外键。本文将介绍如何使用Python中的petl库将PostgreSQL中所有表的外键删除,迁移数据,并重新建立外键。二、安装petl和psycopg2首先,我们需要安装petl和psycopg2......
  • ETL工具-nifi干货系列 第四讲 Avro schema 序列化框架
    一、在使用nifi的过程中会使用到遇到avroschema、avrodata、avroReader、avroWriter等,所以本节课和大家一起学习下avro相关知识。 二、什么是AvroApacheAvro是hadoop中的一个子项目,也是一个数据序列化系统,其数据最终以二进制格式,采用行式存储的方式进行存储。三、什么......
  • cloudquery 开源ETL 框架
    cloudquery开源ETL框架提供了基于plugin的数据集成模式包含的特性开源,提供了sdk快速,基于golang轻量级协程,基于apachearrow部署方便,就是一个独一的二进制文件可扩展,cloudqueryplugin是无状态的,可以方便的扩展说明cloudquery可以应用的场景还是比较多的,但是目前一......
  • ETL工具-nifi干货系列 第三讲 nifi web ui 使用教程
    1、nifi服务启动之后,浏览器输入https://localhost:8443/nifi ,匿名登录或者输入用户名密码进入操作页面,如下图所示:2、组件工具栏处理器,鼠标放到图标上提示Processor,里面里面有各种各样的组件,可以实现各种各样的功能。 拖拉处理器到画布中,出现处理器选择列表,可以根据处理......