HBase架构

HBase概述：HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，用于存储海量的结构化或者半结构化，非结构化的数据（底层存储的类型只有一种，是字节数组）

1、HBase是可以提供实时计算的分布式数据库，数据保存在HDFS分布式文件系统上，由HDFS保证其高容错性

2、HBase上的数据是以StoreFile（HFile）二进制流的形式存储在HHDFS上的block块中

3、HBase存储的数据对于HDFS来说是透明的

HBase相关概念

1、分布式数据库

2、列式存储

3、稀疏性

4、数据模型

表：HBase的数据同样是由行和列组成的，行和列的交叉坐标就是一个单元格

行：每个表都由若干行组成，每个行都有唯一标识符（行键），访问单个行的方式只有三种：通过单个行键进行查询、通过一个行键的区间来访问、全表扫描

列簇：一个HBase被分成许多"列簇"，"列簇"是基本的访问控制单元（操作时可以不加列明，但是必须要有列簇名）

列修饰符（列限定符）：列簇里面的数据需要通过列名拉进行定位

单元格：在HBase中，行列交叉确定的的单元格中存储的数据没有数据类型，一旦被存储进HBase中就是字节数组的方式进行存储

时间戳：版本号时根据时间戳来进行索引的

HBase数据库与关系型数据库的不同之处：

行按行键排序，列划分为列簇，单元格有版本号，没有数据类型

5、数据坐标

Hbase通过四个键定位到单元格，四个键是（列簇、行键、列限定符、时间戳），没有数据类型，全部由字节码形式存储

6、Hbase区域

HBase自动把表水平划分为区域（Region），每个区域都是有若干连续行构成的，一个区域由所属的表、起始行、终止行（不包括这行）三个要素来表示。

一开始，一个表只有一个区域，但是随着数据的增加，区域逐渐变大，等到它超出设定的阈值（128M）大小，就会在某行的边界上进行拆分，分成两个大小基本相同的区域。然后随着数据的再增加，区域就不断的增加，如果超出了单台服务器的容量，就可以把一些区域放到其他节点上去，构成一个集群。也就是说：集群中的每个节点（Region Server）管理整个表的若干个区域。所以，我们说：区域是HBase集群上分布数据的最小单位。

HBase系统架构

1、架构图

2、组件介绍

HBase由三种类型的服务器以主从模式构成：

Region Server:
负责数据读写服务，用户通过与Region server交互来实现对数据的访问

HBase HMaster:
负责Region的分配及数据库的创建和删除等操作

Zookeeper:
负责维护集群的状态(某台服务器是否在线，服务器之间数据的同步操作和master的选举)

Client

包含访问HBase的接口并维护cache来加快对HBase的访问

Zookeeper

保证任何时候，集群中只有一个master

存贮所有Region的寻址入口。

实时监控Region server的上线和下线信息。并实时通知Master

存储HBase的schema和table元数据的meta信息（存储HBase的表结构和元数据的元数据）

Master

为Region server分配region

负责Region server的负载均衡

发现失效的Region server并重新分配其上的region

管理用户对table的增删改操作

RegionServer

Region server维护region，处理对这些region的IO请求

Region server负责切分在运行过程中变得过大的region　

HLog(WAL log)：

HLog文件就是一个普通的Hadoop Sequence File，Sequence File 的Key是 HLogKey对象，HLogKey中记录了写入数据的归属信息，除了table和 region名字外，同时还包括sequence number和timestamp，timestamp是” 写入时间”，sequence number的起始值为0，或者是最近一次存入文件系统sequence number。

HLog SequeceFile的Value是HBase的KeyValue对象，即对应HFile中的 KeyValue

Region

HBase自动把表水平划分成多个区域(region)，每个region会保存一个表里面某段连续的数据；每个表一开始只有一个region，随着数据不断插入表，region不断增大，当增大到一个阀值的时候，region就会等分会两个新的region（裂变）；

当table中的行不断增多，就会有越来越多的region。这样一张完整的表被保存在多个Regionserver上。

Memstore 与 storefile

一个region由多个store组成，一个store对应一个CF（列簇）

store包括位于内存中的memstore和位于磁盘的storefile写操作先写入 memstore，当memstore中的数据达到某个阈值，hregionserver会启动 flashcache进程写入storefile，每次写入形成单独的一个storefile

当storefile文件的数量增长到一定阈值后，系统会进行合并（minor、 major compaction），在合并过程中会进行版本合并和删除工作（majar），形成更大的storefile。

当一个region所有storefile的大小和超过一定阈值后，会把当前的region 分割为两个，并由hmaster分配到相应的regionserver服务器，实现负载均衡。

客户端检索数据，先在memstore找，找不到再找storefile

HRegion是HBase中分布式存储和负载均衡的最小单元。最小单元就表示不同的HRegion可以分布在不同的HRegion server上。

HRegion由一个或者多个Store组成，每个store保存一个columns family。

每个Strore又由一个memStore和0至多个StoreFile组成。

3、一些注意事项的理解：

1、flush刷新在HDFS上是什么过程:
	刚学习的时候添加数据是一条一条put进去的，比较小（小于128M）的时候，在HDFS上并不能看到添加进去的数据，因为这些数据小到内存能直接进去，所以这些数据还在memStore中，想要在HDFS中看到这些数据的flush刷新进去，就是将memStore中的数据刷新到StoreFile中去，这样我们就能在HDFS中查看了
	
2、为什么HBase不能像MySQL一样进行查询:
	HBase中的数据并不能保证完整，他是可以缺少值的，而MySQL数据库中的数据必须是完整的，比如一行没有值，但是在那个位置会显示null
	
3、HBase的数据最终是存储在HDFS上的，而HDFS是不支持删改的，为什么HBase可以删改:
	虽然HBase数据是以HFile的新式存储在HDFS上的，但是这里的删除并不是真正的删除，而是对数据进行标记，当我们再去查询的时候，查询到整个打上标记的值的时候并不会去查到这个值，这些被打上标记的值HMaster每过一小时会进行清理，HBase会取最新的数据，过期的数据也是这种方式进行清理

标签：HDFS,存储,架构,Region,HBase,数据,region
From： https://www.cnblogs.com/peculiar/p/18185900

HBase架构

HBase架构

HBase概述：HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，用于存储海量的结构化或者半结构化，非结构化的数据（底层存储的类型只有一种，是字节数组）

HBase相关概念

1、分布式数据库

2、列式存储

3、稀疏性

4、数据模型

HBase数据库与关系型数据库的不同之处：

5、数据坐标

6、Hbase区域

HBase系统架构

1、架构图

2、组件介绍

HBase由三种类型的服务器以主从模式构成：

Client

Zookeeper

Master

RegionServer

HLog(WAL log)：

Region

Memstore 与 storefile

3、一些注意事项的理解：

相关文章

赞助商

阅读排行