- 2024-03-29客快物流大数据项目(九十三):ClickHouse的ReplacingMergeTree深入了解 ClickHouse清除重复数据
ClickHouse的ReplacingMergeTree深入了解为了解决MergeTree相同主键无法去重的问题,ClickHouse提供了ReplacingMergeTree引擎,用来对主键重复的数据进行去重。删除重复数据可以使用optimize命令手动执行,这个合并操作是在后台运行的,且无法预测具体的执行时间。在使用optimize命
- 2024-03-29客快物流大数据项目(八十二):Kudu的读写原理 一般有用 看1
Kudu的读写原理一、工作模式Kudu的工作模式如下图,有些在上面的内容中已经介绍了,这里简单标注一下:每个kudutable按照hash或range分区为多个tablet;每个tablet中包含一个MemRowSet以及多个DiskRowSet;每个DiskRowSet包含BaseData以及DeltaStores;Delta
- 2024-03-29客快物流大数据项目(四十二):Java代码操作Kudu
Java代码操作Kudu一、构建maven工程二、导入依赖三、创建包结构四、初始化方法五、创建表六、插入数据七、查询数据八、修改数据九、删除数据十、修改表十一、
- 2024-03-29客快物流大数据项目(八十五):实时OLAP分析需求 一些组件的特点 一般有用 看1
实时OLAP分析需求一、背景介绍在之前的文章学习了离线数仓的构建,但是离线数仓的最大问题即:慢,数据无法实时的通过可视化页面展示出来,通常离线数仓分析的是“T+1”的数据,针对于时效性要求比较高的场景,则无法满足需求,例如:快速实时返回“分组+聚合计算+排序聚合指标
- 2024-03-29客快物流大数据项目(六十八):工作流调度 azkaban介绍及用法 一般有用 图片偏多 看1
工作流调度一、工作流产生背景工作流(Workflow),指“业务过程的部分或整体在计算机应用环境下的自动化”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。工作流解决的主要问题是:为了实现某个业务目标,利用计算机软件在多个参与者之间按某种预定规则自动传递文档、信息
- 2024-03-29客快物流大数据项目(六十二):主题及指标开发 common包下定义的一些内容 一般有用 看1
主题及指标开发一、主题开发业务流程二、离线模块初始化1、创建包结构2、创建时间处理工具3、定义主题宽表及指标结果表的表名4、物流字典码表数据类型定义枚举类5、封装公共接口主题及指标开发一、主题开发业
- 2024-03-29客快物流大数据项目(八十一): Kudu原理 有用 看1
Kudu原理一、表与schemaKudu设计是面向结构化存储的,因此Kudu的表需要用户在建表时定义它的Schema信息,这些Schema信息包含:列定义(含类型)PrimaryKey定义(用户指定的若干个列的有序组合)数据的唯一性,依赖于用户所提供的PrimaryKey中的Column组合的值的唯一性。Kudu提供了Alt
- 2024-03-29客快物流大数据项目(七十):Impala入门介绍 一般有用 看1
Impala入门介绍一、impala基本介绍impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具,impala是参照谷歌的新三篇论文(Caffeine--网络搜索引擎、Pregel--分布
- 2024-03-29客快物流大数据项目(四十):ETL实现方案
目录ETL实现方案一、ETL处理流程图二、为什么使用Kudu作为存储介质ETL实现方案一、ETL处理流程图数据来源:来自于ogg同步到kafka的物流运输数据来自于canal同步到kafka的客户关系数据二、为什么使用Kudu作为存储介质数据库数据上的快速分析目前
- 2024-03-29客快物流大数据项目(一百):ClickHouse的使用 spark操作ClickHouse代码
ClickHouse的使用一、使用Java操作ClickHouse1、构建maven工程2、导入依赖<!--Clickhouse--><dependency><groupId>ru.yandex.clickhouse</groupId><artifactId>clickhouse-jdbc</artifactId><version>0.2.2</v
- 2023-07-04客快物流大数据项目学习框架学习框架的重要性我是怎么坚持学习的怎么确定学习目标
文章目录客快物流大数据项目学习框架前言一、项目简介二、功能介绍三、项目背景四、服务器资源规划五、技术亮点及价值六、智慧物流大数据平台客快物流大数据项目学习框架前言利用框架的力量,看懂游戏规则,才是入行的前提大多数人不懂,不会,不做,才是你的机会,你得行动,不能畏首畏尾选择才
- 2022-11-02客快物流大数据项目(八十一): Kudu原理
文章目录Kudu原理一、表与schema二、kudu的底层数据模型Kudu原理一、表与schemaKudu设计是面向结构化存储的,因此Kudu的表需要用户在建表时定义它的
- 2022-10-08客快物流大数据项目(七十八):Hue简介
文章目录Hue简介一、Hue介绍二、Hue整合大数据技术栈架构三、支持连接到的数据库四、 官方网址Hue简介一、Hue介绍HUE是一个开源