首页 > 数据库 >HBase 数据库

HBase 数据库

时间:2024-04-08 20:29:05浏览次数:23  
标签:11 bwbigdata 数据库 hbase hadoop102 HBase 2.4

目录

一、HBase数据模型

1)Name Space

2)Table

3)Row

4)Column

5)Time Stamp

6)Cell

二、HBase的逻辑结构

三、HBase的物理结构

四、HBase基本架构

1)Master

2)Region Server

3)Zookeeper

4)HDFS

 五、安装HBase数据库

1)上传、解压

2)配置环境变量

3)修改HBase配置文件

4)分发HBase到另外两台主机

5)群起集群,(注:需要先启动hadoop集群,和zookeeper)

6)通过WebUI来查看HBase管理页面


一、HBase数据模型

        HBase 的设计理念依据 Google 的 BigTable 论文,论文中对于数据模型的首句介绍。 Bigtable 是一个稀疏的、分布式的、持久的多维排序 map。 之后对于映射的解释如下:

        该映射由行键、列键和时间戳索引;映射中的每个值都是一个未解释的字节数组。 最终 HBase 关于数据模型和 BigTable 的对应关系如下:

HBase 使用与 Bigtable 非常相似的数据模型。用户将数据行存储在带标签的表中。数据行具有可排序的键和任意数量的列。该表存储稀疏,因此如果用户喜欢,同一表中的行可 以具有疯狂变化的列。

        最终理解 HBase 数据模型的关键在于稀疏、分布式、多维、排序的映射。其中映射 map 指代非关系型数据库的 key-Value 结构。

1)Name Space

命名空间,类似于关系型数据库的 database 概念,每个命名空间下有多个表。HBase 两 个自带的命名空间,分别是 hbase 和 default,hbase 中存放的是 HBase 内置的表,default 表是用户默认使用的命名空间。

2)Table

类似于关系型数据库的表概念。不同的是,HBase 定义表时只需要声明列族即可,不需 要声明具体的列。因为数据存储时稀疏的,所有往 HBase 写入数据时,字段可以动态、按需 指定。因此,和关系型数据库相比,HBase 能够轻松应对字段变更的场景。

3)Row

HBase 表中的每行数据都由一个 RowKey 和多个 Column(列)组成,数据是按照 RowKey 的字典顺序存储的,并且查询数据时只能根据 RowKey 进行检索,所以 RowKey 的设计十分重要。

4)Column

HBase 中的每个列都由 Column Family(列族)和 Column Qualifier(列限定符)进行限 定,例如 info:name,info:age。建表时,只需指明列族,而列限定符无需预先定义。

5)Time Stamp

用于标识数据的不同版本(version),每条数据写入时,系统会自动为其加上该字段, 其值为写入 HBase 的时间。

6)Cell

单元格。由{rowkey, column Family:column Qualifier, timestamp} 唯一确定的单元。cell 中的数 据全部是字节码形式存贮。

二、HBase的逻辑结构

三、HBase的物理结构

 物理存储结构即为数据映射关系,而在概念视图的空单元格,底层实际根本不存储

四、HBase基本架构

 

 架构角色:

1)Master

实现类为 HMaster,负责监控集群中所有的 RegionServer 实例。主要作用如下:

(1)管理元数据表格 hbase:meta,接收用户对表格创建修改删除的命令并执行

(2)监控 region 是否需要进行负载均衡,故障转移和 region 的拆分。

通过启动多个后台线程监控实现上述功能:

①LoadBalancer 负载均衡器

周期性监控 region 分布在 regionServer 上面是否均衡,由参数 hbase.balancer.period 控 制周期时间,默认 5 分钟。

②CatalogJanitor 元数据管理器

定期检查和清理 hbase:meta 中的数据。meta 表内容在进阶中介绍。

③MasterProcWAL master 预写日志处理器

把 master 需要执行的任务记录到预写日志 WAL 中,如果 master 宕机,让 backupMaster 读取日志继续干。

2)Region Server

Region Server 实现类为 HRegionServer,主要作用如下:

(1)负责数据 cell 的处理,例如写入数据 put,查询数据 get 等

(2)拆分合并 region 的实际执行者,有 master 监控,有 regionServer 执行。 

3)Zookeeper

HBase 通过 Zookeeper 来做 master 的高可用、记录 RegionServer 的部署信息、并且存储 有 meta 表的位置信息。

HBase 对于数据的读写操作时直接访问 Zookeeper 的,在 2.3 版本推出 Master Registry 模式,客户端可以直接访问 master。使用此功能,会加大对 master 的压力,减轻对 Zookeeper 的压力。

4)HDFS

HDFS 为 Hbase 提供最终的底层数据存储服务,同时为 HBase 提供高容错的支持。

 五、安装HBase数据库

1)上传、解压

将hbase-2.4.11-bin.tar.gz上传到/opt/software下面,解压到/opt/module下面

[bwbigdata@hadoop102 software]$ tar -zxvf hbase-2.4.11-bin.tar.gz -C /opt/module/
2)配置环境变量
[bwbigdata@hadoop102 module]$ sudo vim /etc/profile.d/my_env.sh

添加如下内容

#HBASE_HOME
export HBASE_HOME=/opt/module/hbase-2.4.11
export PATH=$PATH:$HBASE_HOME/bin

添加完后,执行:

[bwbigdata@hadoop102 module]$ source /etc/profile

3)修改HBase配置文件

进入/opt/module/hbase-2.4.11/conf目录

① hbase-env.sh修改内容:

[bwbigdata@hadoop102 conf] $ vim hbase-env.sh
修改内容如下:
#设置是否由hbase自己管理zookeeper,默认为true
export HBASE_MANAGES_ZK=false

② hbase-site.xml修改内容:

[bwbigdata@hadoop102 conf] $ vim hbase-site.xml

<configuration>
    <property>
        <name>hbase.rootdir</name>
        <value>hdfs://hadoop102:8020/hbase</value>
    </property>
​
    <property>
        <name>hbase.cluster.distributed</name>
        <value>true</value>
    </property>
​
    <property>
        <name>hbase.zookeeper.quorum</name>
        <value>hadoop102,hadoop103,hadoop104</value>
    </property>
</configuration>

③ 修改regionservers

hadoop102
hadoop103
hadoop104

④ 解决HBase和 Hadoop的 log4j兼容性问题,修改HBase的jar包,使用Hadoop的jar包

mv /opt/module/hbase-2.4.11/lib/client-facing-thirdparty/slf4j-reload4j-1.7.33.jar /opt/module/hbase-2.4.11/lib/client-facing-thirdparty/slf4j-reload4j-1.7.33.jar.bak
4)分发HBase到另外两台主机
[bwbigdata@hadoop102 module]$ xsync /opt/module/hbase-2.4.11 
5)群起集群,(注:需要先启动hadoop集群,和zookeeper)
[bwbigdata@hadoop102 hbase-2.4.11]$ bin/start-hbase.sh   #启动
[bwbigdata@hadoop102 hbase-2.4.11]$ bin/stop-hbase.sh    #停止

注:单点启动命令

[bwbigdata@hadoop102 hbase-2.4.11]$ bin/hbase-daemon.sh start master

[bwbigdata@hadoop102 hbase-2.4.11]$ bin/hbase-daemon.sh start regionserver
6)通过WebUI来查看HBase管理页面

http://hadoop102:16010/icon-default.png?t=N7T8http://hadoop102:16010/

 

标签:11,bwbigdata,数据库,hbase,hadoop102,HBase,2.4
From: https://blog.csdn.net/2301_78959404/article/details/137522036

相关文章

  • NCI SEER breast cancer美国国立癌症研究所数据库乳腺癌生存分析和乳腺癌预测模型(202
    ​作者Toby,来源公众号:python生物信息学,美国国立癌症研究所数据库乳腺癌生存分析和乳腺癌预测模型NCI美国国立癌症研究所(NationalCancerInstitute,NCI)美国国立癌症研究所(NCI)是美国国家卫生研究院(NIH)的一个组成部分,致力于癌症研究和预防。以下是NCI的一些重要信息和职责:......
  • 安卓开发向数据库添加中文变成了?怎么解决
    在安卓开发中,如果向数据库添加数据时中文变成了问号'?',通常是因为数据库的编码方式不支持中文字符。为了解决这个问题,可以尝试以下方法:1.确保数据库的编码方式支持中文字符。一般来说,可以选择使用UTF-8编码来存储中文字符。2.在创建数据库连接时,设置正确的字符集,例如在JDB......
  • C# 操作 达梦数据库 DM8
    准备先到达梦官网下载数据库安装包根据官方提供的安装手册安装好DM8后,就可以了。测试环境Windows10x86_64DM8FreeSQL.NET8读写数据库这里使用FreeSQLORM进行读写DM8数据库。首先新建一个测试项目Console项目就行了。dotnetnewslndotnetnewconsoledotnets......
  • 1、安装tbase5.21.6.1数据库
    目录安装tbase5.21.6.1数据库1、创建用户:2、创建目录3、安装3、查看安装的目录4、创建initdb5、修改配置文件5.1、修改postgresql.conf5.2、修改pg_hba.conf6、启动数据库7、创建group8、设置用户的密码安装tbase5.21.6.1数据库安装包版本:tbase_pgxz-5.21.6.1-i.x86_64.rpm1、......
  • 2、tbase数据库迁移
    目录tbase数据库迁移1、登录psql2、创建管理用户3、创建数据库3.1、表空间存放文件3.2、创建表空间3.3、查看表空间列表4、创建新数据库5、创建用户并授权5.1、创建用户5.2、新增的用户交由adminuser用户管理6、创建用户空间6.1、创建表空间存放文件夹6.2、创建表空间6.3、如需要......
  • INFR11199-高级数据库系统
    INFR11199-高级数据库系统(2024年春季)课程课业到期时间:2024年3月28日星期四中午12:00重要:抄袭:每个学生都必须单独完成本项目课业。此项目的所有代码都必须是您自己的。您不能复制源代码来自其他学生或你在网上找到的其他来源。你不能分享你和其他学生的代码。您不能将代码托管......
  • 深圳阿里云代理商:asp.net如何提交数据库
    深圳阿里云代理商:asp.net如何提交数据库简介:飞机@luotuoemo本文由(阿里云代理商:【金推云】www.jintui.cn)撰写如何在ASP.NET中提交数据库阿里云代理商的优势作为深圳阿里云代理商,我们提供高效、安全、稳定的云计算服务,能够满足客户的各种需求。通过阿里云的弹性计算、数据......
  • ArangoDB:探索多模型数据库的魅力
            ArangoDB是一款多模型数据库,它支持图形、文档和键值数据存储,这使得它在处理各种类型的数据和应用场景时具有极大的灵活性。以下是对ArangoDB的介绍,包括其特点优势、安装步骤以及基本使用命令和代码。        ArangoDB的特点与优势        1......
  • openGauss数据库源码学习-指标采集、预测与异常检测
    opengauss源码解析指标采集、预测与异常检测代码位置:/gausskernel/dbmind/tools/anomaly_detection各模组在整体结构上的组合在摩天轮论坛上官方解析文章已经叙述的相对完整详尽。该报告对应为具体模块内部的实现。Agent模块代码位置:~/agentAgent模块负责数据库指标数据......
  • 开源数据库OpenGauss的SQL解析源码分析
    开源数据库OpenGauss的SQL解析源码分析OpenGauss数据库体系概述openGauss是关系型数据库,采用客户端/服务器,单进程多线程架构;支持单机和一主多备部署方式,同时支持备机可读、双机高可用等特性。从代码结构体系结构的角度来说,oepnGauss的第一个组成部分是通信管理。openGa......