首页 > 其他分享 >hadoop hive hbase

hadoop hive hbase

时间:2023-07-25 21:13:55浏览次数:42  
标签:hdfs 数据文件 hadoop hive MapReduce hbase

公司报表是基于数仓开发的,分层是ods>dwd>dwm>dm,sqoop再同步到传统数据库,帆软展示,或tableau展示,这块涉及的是离线计算。

记录下大数据开发设计的概念:

1、hadoop:分布式计算(MapReduce)+分布式文件系统(HDFS),后者可以独立运行,前者可以选择性使用,也可以不使用

2、hive:数据仓库,仓库中的数据是被hdfs管理的数据文件,它支持类似sql语句的功能,你可以通过该语句完成分布式环境下的计算功能,hive会把语句转换成MapReduce,然后交给hadoop执行。这里的计算,仅限于查找和分析,而不是更新、增加和删除。它的优势是对历史数据进行处理,也即 离线计算,因为它的底层是MapReduce,MapReduce在实时计算上性能很差。它的做法是把数据文件加载进来作为一个hive表(或者外部表),让你觉得你的sql操作的是传统的表。

3、hbase:hbase的作用类似于数据库,传统数据库管理的是集中的本地数据文件,而hbase基于hdfs实现对分布式数据文件的管理,比如增删改查。也就是说,hbase只是利用hadoop的hdfs帮助其管理数据的持久化文件(HFile),它跟MapReduce没任何关系。hbase的优势在于实时计算,所有实时数据都直接存入hbase中,客户端通过API直接访问hbase,实现实时计算。由于它使用的是nosql,或者说是列式结构,从而提高了查找性能,使其能运用于大数据场景,这是它跟MapReduce的区别。

总结:

hadoop是hive和hbase的基础,hive依赖hadoop,而hbase仅依赖hadoop的hdfs模块。

hive适用于离线数据的分析,操作的是通用格式的(如通用的日志文件)、被hadoop管理的数据文件,它支持类sql,比编写MapReduce的java代码来的更加方便,它的定位是数据仓库,存储和分析历史数据

hbase适用于实时计算,采用列式结构的nosql,操作的是自己生成的特殊格式的HFile、被hadoop管理的数据文件,它的定位是数据库,或者叫DBMS

hive可以直接操作hdfs中的文件作为它的表的数据,也可以使用hbase数据库作为它的表
————————————————
参考资料:

1、https://blog.csdn.net/m0_67402125/article/details/126582077

2、谷歌三篇大数据相关的论文

标签:hdfs,数据文件,hadoop,hive,MapReduce,hbase
From: https://www.cnblogs.com/qingmaple/p/17581030.html

相关文章

  • HIVE中对于时间变换的处理
    一、获取月份第一天/最后一天--需求一:获取月份第一天/最后一天--方式一:last_day--获取当月第一天selectdate_add(last_day(add_months('2020-06-14',-1)),1);--获取当月最后一天selectlast_day('2020-06-14');--方式二:floor_month(注:必须转换成时间戳处理!)--获取当月第......
  • 数据仓库hive的工作原理
    数据仓库Hive的工作原理数据仓库是一个用于存储和管理大数据的系统,而Hive是一款基于Hadoop的数据仓库工具。本文将介绍Hive的工作原理,并通过代码示例来说明其应用。Hive的基本原理Hive是基于Hadoop的一个数据仓库工具,它允许用户使用类似于SQL的语言(HQL)来查询和分析大规模的数......
  • hadoop-eclipse开发环境搭建及error: failure to login错误
    对于Hadoop开发者来讲,通过JAVAAPI编程是进入Map-Reduce分布式开发的第一步。由于Eclipse本身并没有提供对MapReduce编程模式的支持,所以需要一些简单的步骤来实现。1.安装Hadoop。本文的Hadoop是部署在虚拟机上的伪分布模式。相关软件环境如下:JDK:sunjdk1.6.0_30Hadoop:hadoop-0......
  • hbase中查询命令 hbase怎么查询
    Hbase表结构  1.进入Hbaseshell>./bin/hbaseshell2.查看当前操作用户>whoami3.创建一个表//表名列族1列族2>create'Rumenz','user','userInfo'4.查看数据库的表>list5.添加数据//表名rowkey列族:字段名值>put'Rumenz......
  • hive表数据导出
      第二种,是放到了本地的不是放在HFDS里的......
  • hadoop start
    hadoop各种资料http://www.linuxidc.com/Linux/2012-07/65972.htm 1.hadoop机架 2.镜像是什么意思镜像(Mirroring)是冗余的一种类型,一个磁盘上的数据在另一个磁盘上存在一个完全相同的副本即为镜像。镜像是一种文件存储形式,可以把许多文件做成一个镜像文件,与GHOST等程序放在一个盘......
  • 怎么将结果保存到hbase中
    项目方案:将结果保存到Hbase中介绍Hbase是一个分布式、可伸缩的大数据存储系统,适用于处理大规模数据集。本项目方案旨在演示如何将计算结果保存到Hbase中。我们将使用Python编程语言和Happybase库来实现此功能。步骤步骤1:安装Hbase和Python依赖首先,安装Hb......
  • (九)Hbase协处理器
    Hbase协处理器Hbase是一个分布式的、面向列的NoSQL数据库,它是构建在Hadoop之上的,提供了高性能、高可靠性的数据存储和访问能力。Hbase协处理器是Hbase提供的一种扩展机制,它允许用户在Hbase服务器端执行自定义的业务逻辑代码,从而实现更高效的数据处理和操作。协处理器概述协处理......
  • 头歌平台移动云启 —— HBase从入门到实战第1关:伪分布式环境搭建先按照上次实训
    头歌平台移动云启——HBase从入门到实战第1关:伪分布式环境搭建HBase是一个分布式的非关系型数据库,广泛应用于大数据领域。本文将介绍如何在头歌平台上搭建HBase的伪分布式环境,并提供相应代码示例。什么是伪分布式环境?伪分布式环境是指在单机上运行HBase的分布式模式,虽然只有......
  • HBase架构和技术原理介绍
    一、HBase数据模型(☆)1.NameSpace命名空间,类似于关系型数据库的DataBase概念,每个命名空间下有多个表。HBase有两个自带的命名空间,分别是hbase和default,hbase中存放的是HBase内置的表,default表是用户默认使用的命名空间。2.Region类似于关系型数据库的表概念。不同的是,H......