首页 > 其他分享 >HBase-统计表总行数的三种方式

HBase-统计表总行数的三种方式

时间:2023-10-17 15:45:07浏览次数:38  
标签:mapreduce hive apache test org HBase 统计表 hbase 总行

 由于Hbase是列式数据库,没有提供类似SQL的数据查询语句,可以通过以下三种方式获取表的总行数。

1. 使用Hbase自带的Count命令

      hbase提供了count命令可以在hbase交互界面使用,获取总行数。

hbase> count ‘test′  

hbase> count ‘test′, INTERVAL => 100000  

  INTERVAL为统计的行数间隔,默认为1000。使用此种方式效率比较低,一般数据量在千万级别时,耗时6分钟以上,不建议使用。

2.使用hbase自动的mapreduce任务统计行数

    hbase自带有继承的统计表行数的mapreduce的Job---->org.apache.hadoop.hbase.mapreduce.RowCounter

$HBASE_HOME/bin/hbase   org.apache.hadoop.hbase.mapreduce.RowCounter   test

  运行结果会在ROWS处体现

  这种方法会启用mapreduce任务去统计行数,在数据量比较大时,可以简单的使用此命令。

3.使用hive创建外表关联Hbase表

  对于存在的hbase表,在hive中创建关联表,然后使用语句统计总行数。

CREATE EXTERNAL TABLE Test(
mRID string,
name string,
nominalVoltage FLOAT
)
ROW FORMAT SERDE'org.apache.hadoop.hive.hbase.HBaseSerDe'
STORED BY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES("hbase.columns.mapping" = ":key,pw:name,pw:nominalVoltage")
TBLPROPERTIES("hbase.table.name"= "test");

 然后在Hive中使用SQL语句进行统计:

select   count(0)  from   test ;

  

  

 

标签:mapreduce,hive,apache,test,org,HBase,统计表,hbase,总行
From: https://www.cnblogs.com/yeyuzhuanjia/p/17769875.html

相关文章

  • HBase-宽表和高表的对比
    HBase表设计通常可以是宽表(widetable)模式,即一行包括很多列。同样的信息也可以用高表(talltable)形式存储,通常高表的性能比宽表要高出50%以上,所以推荐大家使用高表来完成表设计。表设计时,我们也应该要考虑HBase数据库的一些特性:1、在HBase表中是通过Rowkey的字典序来进行数据排序......
  • 使用visual studio 2022统计项目代码总行数
    第一步打开项目解决方案,第二步使用快捷键打开查找对话框1)输入:b*[^:b#/]+.*$2)使用正则表达式3)查找范围:整个解决方案4)查找全部......
  • HBase入门指南
    本文已收录至GitHub,推荐阅读......
  • html实现NBA总决赛统计表
    案例注意事项:1.注意背景图片不需要用img实现,因为img标签中的title是鼠标悬停在图片上的时候显示的内容。实现效果图:代码:<!DOCTYPEhtml><htmllang="en"><head>  <metacharset="UTF-8">  <metaname="viewport"content="width=device-width,initial-s......
  • MapReduce和Spark读取HBase快照表
    1.概述随着大数据技术的不断发展,处理海量数据的需求变得愈发迫切。MapReduce作为一种分布式计算模型,为处理大规模数据提供了有效的解决方案。在这篇博客中,我们将探讨如何使用MapReduce框架读取快照表(SnapshotTable)的数据。快照表是一种记录某一时刻系统状态的表格,通过MapReduce......
  • 华为云HBase冷热分离最佳实践
    本文分享自华为云社区 《华为云HBase冷热分离最佳实践》,作者:pippo。HBase介绍HBase是HadoopDatabase的简称,是建立在Hadoop文件系统之上的分布式面向列的数据库,它具有高可靠、高性能、面向列和可伸缩的特性,提供快速随机访问海量数据能力。HBase采用Master/Slave架构,由HMast......
  • 20230922学习总结java连接HBASE
    连接条件:1、所有虚拟机上运行hadoop集群、运行zookeeper进程守护 2、向项目中导入即hbase安装目录下的conf文件夹中的两个文件 3、添加maven依赖<dependencies><dependency><groupId>org.apache.hbase</groupId><artifactId>hbase-server</ar......
  • HBase13(项目03phoenix视图JDBC开发)
    1.phoenix视图建立当创建视图后,就可以使用SQL查询视图,和操作Table一样。1.视图如何映射到HBase的表? 视图的名字必须是:命名空间.表名2.视图中的列如何映射到HBase的列族和列? 列名必须是:列族.列名3.视图中的类如何映射到HBase的ROWKEY? 指定某个列为primarykey,自动映射......
  • HBase学习12(项目02数据随机生成后写入Hbase里面)
    26~291.已完成创建hbase_shell目录用于存放hbaseshell脚本命名空间:MOMO_CHAT表名:MSG预分区6个,压缩方式'GZ'HBase学习11(项目01分析及准备)-201812-博客园(cnblogs.com) 2.导入pom依赖<repositories><!--代码库--><repository><id>aliyun</id>......
  • HBase学习11(项目01分析及准备)
    海量数据1.准备在idea中创建项目,然后创建脚本包hbase_shell。添加文件说明readme.md,写入相关项目结构说明。通过复制hbase_shell文件目录,在VSCode中打开进行对脚本文件的编写。在VSCode中编写方便。 2.创建名称空间namespace当表的数量比较多的时候,为了方便管理,不同的业......