客快物流大数据项目（八十二）：Kudu的读写原理一般有用看1

时间：2024-03-29 23:24:37浏览次数：20

标签：RowSet tablet 客快 Kudu 八十二数据主键客户端

Kudu的读写原理

一、工作模式

Kudu的工作模式如下图，有些在上面的内容中已经介绍了，这里简单标注一下：

每个kudu table按照hash或range分区为多个tablet；
每个tablet中包含一个MemRowSet以及多个DiskRowSet；
每个DiskRowSet包含BaseData以及DeltaStores；
DeltaStores由多个DeltaFile和一个DeltaMemStore组成；
insert请求的新增数据以及对MemRowSet中数据的update操作（新增的数据还没有来得及触发compaction操作再次进行更新操作的新数据）会先进入到MemRowSet；
当触发flush条件时将新增数据真正的持久化到磁盘的DiskRowSet内；
对老数据的update和delete操作是提交到内存中的DeltaMemStore；
当触发flush条件时会将更新和删除操作持久化到磁盘DIskRowSet中的DeltaFile内，此时老数据还在BaseData内（逻辑删除），新数据已在DeltaFile内；
当触发compaction条件时，将DeltaFile和BaseData进行合并，DiskRowSet进行合并，此时老数据才真正的从磁盘内消失掉（物理删除），只留下更新后的数据记录；

二、kudu的读流程

客户端向Kudu Master请求tablet所在位置
Kudu Master返回tablet所在位置
为了优化读取和写入，客户端将元数据进行缓存
根据主键范围过滤目标tablet，请求Tablet Follower
根据主键过滤scan范围，定位DataRowSets
加载BaseData，并与DeltaStores合并，得到老数据的最新结果
拼接第6步骤得到的老数据与MemRowSet数据得到所需数据
将数据返回给客户端

三、kudu的写流程

客户端向Kudu Master请求tablet所在位置；
Kudu Master返回tablet所在位置；
为了优化读取和写入，客户端将元数据进行缓存；
根据分区策略，路由到对应Tablet，请求Tablet Leader；
根据RowSet记录的主键范围过滤掉不包含新增数据主键的RowSet；
根据RowSet 布隆过滤器再进行一次过滤，过滤掉不包含新数据主键的RowSet；
查询RowSet中的B树索引判断是否命中新数据主键，若命中则报错主键冲突，否则新数据写入MemRowSet；
返回响应给客户端；

四、kudu的更新流程

更新删除流程与写入流程类似，区别就是最后判断是否存在主键时候的操作，若存在才能更新，不存在才能插入新数据。

客户端向Kudu Master请求tablet所在位置
Kudu Master返回tablet所在位置
为了优化读取和写入，客户端将元数据进行缓存
根据分区策略，路由到对应Tablet，请求Tablet Leader
根据RowSet记录的主键范围过滤掉不包含修改的数据主键的RowSet
根据RowSet 布隆过滤器再进行一次过滤，过滤掉不包含修改的数据主键的RowSet
查询RowSet中的B树索引判断是否命中修改的数据主键，若命中则修改至DeltaStores，否则报错数据不存在
返回响应给客户端

标签：RowSet,tablet,客快,Kudu,八十二,数据,主键,客户端
From： https://www.cnblogs.com/shan13936/p/18104771

客快物流大数据项目(四十二)：Java代码操作Kudu
Java代码操作Kudu一、构建maven工程二、导入依赖三、创建包结构四、初始化方法五、创建表六、插入数据七、查询数据八、修改数据九、删除数据十、修改表十一、......
客快物流大数据项目(五十一)：数据库表分析物流项目数据库表设计
数据库表分析一、物流运输管理数据库表1、揽件表（tbl_collect_package）2、客户表（tbl_customer）3、物流系统码表（tbl_codes）4、快递单据表（tbl_express_bill）5、快递包裹表（tbl_express_package）6、客户地址表（tbl_address）7、客户寄件信息表（tbl_consumer......
客快物流大数据项目（八十五）：实时OLAP分析需求一些组件的特点一般有用看1
实时OLAP分析需求一、背景介绍在之前的文章学习了离线数仓的构建，但是离线数仓的最大问题即：慢，数据无法实时的通过可视化页面展示出来，通常离线数仓分析的是“T+1”的数据，针对于时效性要求比较高的场景，则无法满足需求，例如：快速实时返回“分组+聚合计算+排序聚合指标......
客快物流大数据项目(六十八)：工作流调度 azkaban介绍及用法一般有用图片偏多看1
工作流调度一、工作流产生背景工作流（Workflow），指“业务过程的部分或整体在计算机应用环境下的自动化”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。工作流解决的主要问题是：为了实现某个业务目标，利用计算机软件在多个参与者之间按某种预定规则自动传递文档、信息......
客快物流大数据项目(六十二)：主题及指标开发 common包下定义的一些内容一般有用看1
主题及指标开发一、主题开发业务流程二、离线模块初始化1、创建包结构2、创建时间处理工具3、定义主题宽表及指标结果表的表名4、物流字典码表数据类型定义枚举类5、封装公共接口主题及指标开发一、主题开发业......
客快物流大数据项目（八十一）： Kudu原理有用看1
Kudu原理一、表与schemaKudu设计是面向结构化存储的，因此Kudu的表需要用户在建表时定义它的Schema信息，这些Schema信息包含：列定义（含类型）PrimaryKey定义（用户指定的若干个列的有序组合）数据的唯一性，依赖于用户所提供的PrimaryKey中的Column组合的值的唯一性。Kudu提供了Alt......
客快物流大数据项目（七十）：Impala入门介绍一般有用看1
Impala入门介绍一、impala基本介绍impala是cloudera提供的一款高效率的sql查询工具，提供实时的查询效果，官方测试性能比hive快10到100倍，其sql查询比sparkSQL还要更加快速，号称是当前大数据领域最快的查询sql工具，impala是参照谷歌的新三篇论文（Caffeine--网络搜索引擎、Pregel--分布......
客快物流大数据项目(四十)：ETL实现方案
目录ETL实现方案一、ETL处理流程图二、为什么使用Kudu作为存储介质ETL实现方案一、ETL处理流程图数据来源：来自于ogg同步到kafka的物流运输数据来自于canal同步到kafka的客户关系数据二、为什么使用Kudu作为存储介质数据库数据上的快速分析目前......
客快物流大数据项目（一百）：ClickHouse的使用 spark操作ClickHouse代码
ClickHouse的使用一、使用Java操作ClickHouse1、构建maven工程2、导入依赖<dependency><groupId>ru.yandex.clickhouse</groupId><artifactId>clickhouse-jdbc</artifactId><version>0.2.2</v......
【QT+QGIS跨平台编译】之八十二：【QGIS_Gui跨平台编译】—【错误处理：QgsExpressionCont
文章目录一、未定义基类QgsExpressionContextGenerator二、错误处理一、未定义基类QgsExpressionContextGenerator报错信息二、错误处理第33行增加：#include"qgsexpressioncontextgenerator.h"......

客快物流大数据项目（八十二）：Kudu的读写原理一般有用看1

相关文章

赞助商

阅读排行

客快物流大数据项目（八十二）：Kudu的读写原理 一般有用 看1

相关文章

赞助商

阅读排行

客快物流大数据项目（八十二）：Kudu的读写原理一般有用看1