首页 > 编程语言 >HBase 源码阅读(三)创建表流程

HBase 源码阅读(三)创建表流程

时间:2024-09-04 22:21:58浏览次数:18  
标签:创建 流程 源码 apache org HBase 协处理器 hbase

前言

上两篇介绍了HMaster完整进程的启动,现在开始介绍一下HMaster创建表的流程

1. 创建表的流程

下面这一部分通过ChatGPT来生成

在 HBase 中,通过 Java 编写创建表的过程涉及多个组件和源码的位置。这里为您详细解析这个过程涉及的主要类和方法。

  1. API 层级的调用:

    • 用户首先会使用 HTableDescriptor 类来定义表的结构,包括表名、列族等信息。
    • HBaseAdmin 类用于管理 HBase 的表操作,如创建、删除表等。创建表的操作主要通过 HBaseAdmin.createTable(HTableDescriptor) 方法实现。
  2. 客户端到服务器的通信:

    • HBaseAdmin.createTable() 被调用时,这个请求会被发送到 HBase 的 Master 服务器。
    • 这个过程中,HConnection 接口的实现类会被用来与 HBase 集群进行通信。具体通信过程由 RpcClient 实现,它处理底层的网络请求。

    上面的过程不是本内容所需要修改的,注意下面的内容

  3. Master 服务器处理:

    • 在 HBase Master 服务器端,HMaster 类接收到创建表的请求。
    • HMaster 中的 createTable 方法处理这些请求。具体的代码路径是 org.apache.hadoop.hbase.master.HMaster 类的 createTable 方法。
  4. 元数据的更新与表的创建:

    • 创建表涉及到修改元数据,这一操作通过 MetaTableAccessor 类来完成(这一部分也不需要修改)。
    • 元数据存储在名为 hbase:meta 的特殊表中,MetaTableAccessor 提供了操作这张表的方法。
  5. ZooKeeper的协调:

    • HBase 使用 ZooKeeper 来处理服务器之间的协调和状态同步。(不需要修改
    • 在表创建过程中,相关的协调信息(如表的状态和可用性)会被更新到 ZooKeeper 中。
  6. Region 的分配与启动:

    • 表创建后,表的初始 region 需要被创建并分配给相应的 RegionServer。
    • 这一过程涉及 AssignmentManager 类,它负责 region 的分配和管理。
  7. 最终的 RegionServer 处理:

    • RegionServer 接收到 region 分配的指令后,通过 HRegion 类来实际创建 region。
    • HRegion 类中处理数据存储和访问的逻辑。

2. 所以最终需要注意的内容

最终需要修改的位置,应该是在RegionServer中

3.文件插入过程

HTable 类:

  • put() 方法:用于插入数据。当调用 put() 方法时,数据首先会被写入到客户端的缓冲区,然后批量写入到服务器。
  • 文件位置:org.apache.hadoop.hbase.client.HTable

HRegion 类:

  • put() 方法:在 HRegion 类中,实际上处理了数据写入到具体的 Region 的逻辑。
  • 文件位置:org.apache.hadoop.hbase.regionserver.HRegion

MemStore 和 WAL:

  • 当数据被写入到 RegionServer 时,首先记录到 WAL (Write-Ahead Log),然后存储在 MemStore 中。MemStore 是基于内存的数据结构,它按照 LSM 树的思想进行设计。
  • MemStore 类: 文件位置通常在 org.apache.hadoop.hbase.regionserver.MemStore
  • WAL 的实现: 查看 org.apache.hadoop.hbase.regionserver.wal 包下的文件。

数据刷新和 Compaction:

  • 当 MemStore 的数据达到一定阈值时,它会被刷新到磁盘上形成一个新的 StoreFile。这个过程涉及数据的排序和合并,符合 LSM 树的操作模式。
  • Store 类和 StoreFile 类:
    • 数据刷新和文件管理是在 Store 类中处理的。
    • 文件位置:org.apache.hadoop.hbase.regionserver.Store
    • StoreFile 管理存储到磁盘的文件,文件位置:org.apache.hadoop.hbase.regionserver.StoreFile

Compaction 的处理:

  • Compaction 是 LSM 树中一个重要的过程,它负责合并多个 StoreFile 减少读放大和空间占用。这在 Compactor 类中实现。
  • 文件位置:org.apache.hadoop.hbase.regionserver.compactions.Compactor

4. 其他

MemStore 和 WAL:

  • 当数据被写入到 RegionServer 时,首先记录到 WAL (Write-Ahead Log),然后存储在 MemStore 中。MemStore 是基于内存的数据结构,它按照 LSM 树的思想进行设计。
  • MemStore 类: 文件位置通常在 org.apache.hadoop.hbase.regionserver.MemStore
  • WAL 的实现: 查看 org.apache.hadoop.hbase.regionserver.wal 包下的文件。

数据刷新和 Compaction:

  • 当 MemStore 的数据达到一定阈值时,它会被刷新到磁盘上形成一个新的 StoreFile。这个过程涉及数据的排序和合并,符合 LSM 树的操作模式。
  • Store 类和 StoreFile 类:
    • 数据刷新和文件管理是在 Store 类中处理的。
    • 文件位置:org.apache.hadoop.hbase.regionserver.Store
    • StoreFile 管理存储到磁盘的文件,文件位置:org.apache.hadoop.hbase.regionserver.StoreFile

Compaction 的处理:

  • Compaction 是 LSM 树中一个重要的过程,它负责合并多个 StoreFile 减少读放大和空间占用。这在 Compactor 类中实现。
  • 文件位置:org.apache.hadoop.hbase.regionserver.compactions.Compactor

5. 下一步的工作内容

  1. HMaster :createTable函数
    1. 是否最开始就涉及分区的功能,答案:默认给定一个分区
    2. 创建表的函数
  2. 假设用户使用HTable API调用put操作,向服务器中一个完全没有数据的表插入数据,此时HRegion会怎么确定应该分配给集群中的哪一个节点,写入通过WAL后,又是怎么存在该节点的MemStore中的呢
    1. 在最开始创建的时候,初始时,表至少有一个 Region,这个 Region 在表创建时就已经分配了。(createTabel函数
    2. 需要put()写入的定位,通过沟通hbase:meta表沟通
  3. 根据MemStore找到存储的地点
  4. 找到完整的写入流程
  5. 循环测试找到 MemStore 写入到StoreFile、Store类的逻辑

6. HMaster.createTable()

分配Table的Region

  1. 查看表结构表述起
  2. 获取表的命名空间
  3. 获取表相关的随机Region信息
  4. 检查表是否符合一些合理的限制,并且配置的值是否正确
  5. 提交该程序

7. HMaster.createTable()的提交程序进程

  // 提交该程序
    return MasterProcedureUtil
            // 提交创建表的任务
            // NonceProcedureRunnable:这是一个用于确保操作唯一性的工具类。nonceGroup和nonce是两个参数,代表唯一标识符,防止重复提交相同的创建表请求。
            // this:当前的HMaster实例,被传递给NonceProcedureRunnable以访问主服务器的上下文和资源。
      .submitProcedure(new MasterProcedureUtil.NonceProcedureRunnable(this, nonceGroup, nonce) {
        @Override
        protected void run() throws IOException {
          // 执行表创建前的协处理器预创建表
          getMaster().getMasterCoprocessorHost().preCreateTable(desc, newRegions);

          LOG.info(getClientIdAuditPrefix() + " create " + desc);

          // TODO: We can handle/merge duplicate requests, and differentiate the case of
          // TableExistsException by saying if the schema is the same or not.
          //
          // We need to wait for the procedure to potentially fail due to "prepare" sanity
          // checks. This will block only the beginning of the procedure. See HBASE-19953.
          // 同步工具,确保在提交创建表过程之前,必要的检查和准备工作已完成。createBlockingLatch()方法创建了一个阻塞闩锁。
          ProcedurePrepareLatch latch = ProcedurePrepareLatch.createBlockingLatch();
          // 提交一个创建表过程
          submitProcedure(
            new CreateTableProcedure(procedureExecutor.getEnvironment(), desc, newRegions, latch));
          // 阻塞当前线程,等待CreateTableProcedure过程完成初步的准备工作,
          latch.await();


          // 执行表创建后的协处理器钩子:该钩子允许在表创建后执行自定义的逻辑,例如通知其他系统或执行后续处理
          getMaster().getMasterCoprocessorHost().postCreateTable(desc, newRegions);
        }

        @Override

        // 返回这个过程的描述信息,有助于通过日志查看记录
        protected String getDescription() {
          return "CreateTableProcedure";
        }
      });
  }

7.1 协处理器的意义

在HBase中,协处理器(Coprocessor)被广泛用于扩展和定制HBase的行为,以满足特定的业务需求。协处理器提供了一种在不修改HBase核心代码的情况下,实现自定义逻辑的机制。具体到创建表的过程,使用协处理器而非普通进程具有以下几个重要原因:

1. 灵活的扩展性

协处理器是HBase提供的一个扩展机制,允许开发者在HBase的标准操作中插入自定义逻辑。通过协处理器,用户可以在表的创建过程之前或之后执行特定的操作,例如:

  • 验证表的元数据是否符合业务规则。
  • 根据表的创建情况触发外部系统的操作(如更新监控系统、通知其他服务等)。
  • 记录审计日志,以追踪表的创建过程。

这些操作如果通过协处理器来实现,HBase的核心代码就不需要为每个特定需求进行修改。这样可以使HBase保持通用性,而具体的业务逻辑则通过协处理器灵活地加以实现。

2. 保持代码的简洁和模块化

直接在普通进程中添加自定义的创建表逻辑,会使代码变得复杂和难以维护。协处理器提供了一种模块化的方式,将自定义逻辑与核心的表创建过程分离。通过这种方式,核心代码可以专注于HBase的标准操作,而不需要考虑各种可能的自定义需求。

3. 可插拔的架构

HBase的协处理器架构是可插拔的。用户可以根据需要加载或卸载协处理器,并且可以在不重启HBase的情况下动态调整。这使得通过协处理器实现的自定义逻辑具有更高的灵活性和可管理性。相比之下,如果直接使用普通进程,则每次修改自定义逻辑都可能需要修改、编译和重新部署整个HBase服务。

4. 一致性和事务支持

协处理器的执行与HBase的标准操作是紧密结合的,这意味着它们可以参与到HBase的事务中,确保数据操作的一致性。例如,在表创建过程中,preCreateTable钩子在创建表的主要逻辑之前执行,postCreateTable钩子则在表创建成功后执行。如果其中任何一步失败,整个表创建操作可以回滚,以确保系统的一致性。

5. 分布式环境下的统一处理

HBase集群是一个分布式系统,协处理器可以在分布式环境下统一处理不同节点上的操作逻辑。例如,表创建操作可能涉及多个RegionServer上的数据分布和索引更新,通过协处理器可以统一管理这些操作,从而简化分布式环境下的编程复杂度

8. CreatTableProduce类

该类的所在位置

package org.apache.hadoop.hbase.master.procedure;


public class CreateTableProcedure
    extends AbstractStateMachineTableProcedure<CreateTableState>

继承的抽象类

说明CreatTableProduce是一个基于状态机的程序

该类是通过一个Runnable类来初始化的,最开始调用他的构造器之后之后

  // 调用
  public CreateTableProcedure(final MasterProcedureEnv env,
      final TableDescriptor tableDescriptor, final RegionInfo[] newRegions,
      final ProcedurePrepareLatch syncLatch) {
    // 设置Env和同步锁存器
    super(env, syncLatch);
    this.tableDescriptor = tableDescriptor;
    this.newRegions = newRegions != null ? Lists.newArrayList(newRegions) : null;
  }
   */
  protected AbstractStateMachineTableProcedure(final MasterProcedureEnv env,
      final ProcedurePrepareLatch latch) {
     // 设置用户以及设置该创建表的所有者
    if (env != null) {
      this.user = env.getRequestUser();
      this.setOwner(user);
    }
    // used for compatibility with clients without procedures
    // they need a sync TableExistsException, TableNotFoundException, TableNotDisabledException, ...
    this.syncLatch = latch;
  }

8.1 此时

  1. 表创建请求提交后
  • 当你通过 HBase API 提交了一个创建表的请求时,这个请求会被包装成一个 CreateTableProcedure 对象,并被提交给 HBase 的 ProcedureExecutor

  • ProcedureExecutor 是一个异步执行引擎,它负责调度并执行所有提交的 Procedure 对象。

  1. 调度执行
  • ProcedureExecutor 会在它的内部线程池中异步地执行 CreateTableProcedure,这时候 executeFromState 方法开始执行。
  1. 状态机驱动
    • CreateTableProcedure 是一个基于状态机的过程。executeFromState 方法会根据当前的状态(CreateTableState)来决定执行什么操作。
    • 每个状态代表了表创建过程中的一个步骤,如验证表是否存在、在文件系统上创建表的布局、将表信息写入 META 表、分配 Regions 等。
  2. 执行每个状态的具体操作
    • executeFromState 方法中,根据当前的状态,执行相应的操作。每个操作完成后,设置下一个要执行的状态(通过 setNextState 方法),直到整个创建过程完成。
  3. 重复执行直到完成
    • ProcedureExecutor 会不断调度 CreateTableProcedure,使其逐步完成所有的状态,并最终完成表的创建。
    • 一旦所有状态都完成,executeFromState 方法返回 Flow.NO_MORE_STATE,表示表的创建过程结束。

至此表创建的所有流程结束

Note

参考本文章记得引用哦~

标签:创建,流程,源码,apache,org,HBase,协处理器,hbase
From: https://blog.csdn.net/qq_43236341/article/details/141905695

相关文章

  • Linkedlist源码详解
    介绍LinkedList同时实现了List接口和Deque接口,也就是说它既可以看作一个顺序容器,又可以看作一个队列(Queue),同时又可以看作一个栈(Stack)。这样看来,LinkedList简直就是个全能冠军。当你需要使用栈或者队列时,可以考虑使用LinkedList,一方面是因为Java官方已经声明不建议使用Stack类......
  • freeRTOS源码解析4--task.c 2
    4、task.c解析时隔两年,还是决定继续把这个系统解析完成,有始有终。不过这次源码又从官网上下载了最新的,可能和我以前看的略有区别,但应该基本不影响理解。接下来正式开始。4.1.3新增或是遗漏的两个宏1/*ReturnspdTRUEifthetaskisactivelyrunningandnotsch......
  • Python | 爬虫实战——亚马逊搜索页监控(附详细源码)
    背景做亚马逊店铺,如果你的品卖爆了,免不得遇到被人跟品、广告关键词竞争甚至是恶意投诉等事情。如果靠人去检查产品是否正常,存在不及时的问题。所以,基本都会想要有一个自动检测的工具。一般是自动根据关键词,设置邮编,查看对应市场下的搜索结果页是否,然后进一步判断搜索结构页......
  • 遥感影像-语义分割数据集:LoveDA数据集详细介绍及训练样本处理流程
    原始数据集详情构建了一个城市-农村域自适应地表覆盖数据集LoveDA,同时推进语义分割和迁移学习,LoveDA数据集包含来自三个不同城市的5987张0.3m高分辨率影像和166,768个标注语义对象。KeyValue卫星类型未知覆盖区域南京、常州、武汉场景城市、农村分辨率0.3m数量5987张单张......
  • 遥感影像-语义分割数据集:Postdam数据集详细介绍及训练样本处理流程
    原始数据集详情Potsdam数据集是一个有着2D语义分割内容标注的城市遥感数据集。KeyValue卫星类型未知覆盖区域一个典型的历史城市,有着大的建筑群、狭窄的街道和密集的聚落结构-Potsdam场景城市分辨率5cm数量38张单张尺寸6000*6000原始影像位深8位标签图片位深8位原始影像......
  • Linux源码下生成并安装内核文档
    最近想使用man命令查看Linux内核函数的帮助信息,无奈有如下提示: xinu@slam:~$manprintkNomanualentryforprintk 而在Linux内核源码下,我们执行makehelp命令后,输出的提示内容有关于内核文档的如下信息:Documentationtargets: Linuxkernelinternaldocumentati......
  • JSP街道疫情防控物资调配系统h8rp2(程序+源码+数据库+调试部署+开发环境)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表系统功能:用户,物资类型,物资信息,物资申请,物资入库,物资调配技术要求:开发语言:JSP前端使用:HTML5,CSS,JSP动态网页技术后端使用SpringBoot,Spring技术主数据......
  • JSP教育分享系统705bw程序+源码+数据库+调试部署+开发环境
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表系统功能:学生,实验分类,实验系统,资源类型,资源信息,精品课堂,课程分类,课堂笔记,提交实验,实验批改,通知信息技术要求:开发语言:JSP前端使用:HTML5,CSS,JSP动态......
  • JSP教务管理系统d3pf6--程序+源码+数据库+调试部署+开发环境
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表系统功能:学生,老师,校园通告,必修课,选修课,选课,考试公告,考试报名,考试成绩,教学质量评估,学生个人信息,学生学籍信息,历史成绩,老师个人信息开题报告内容一......
  • 氧气电还原测试流程
    1.测试前的准备准备电解液酸性电解液:0.5MH2SO4或0.1MHClO4。注:贵金属催化剂尤其是铂基催化剂必须使用高氯酸才能获得较好的性能。碱性电解液:0.1MKOH中性电解液:0.1MPB(磷酸缓冲液)准备参比电极酸性电解液:Ag/AgCl(sat.KCl)参比电极碱性电解液:Hg/HgO(1MKOH)参比电......