首页 > 其他分享 >七、hive、hdfs、hbase查询总结

七、hive、hdfs、hbase查询总结

时间:2024-03-13 16:59:52浏览次数:14  
标签:hdfs dfs hive test hbase txt

【hive】

1.连接hive:

hive

2.hive中查询:

同mysql,如 select *  from tablename;   

注意:hive中的操作一定要加分号; 否则语句一直不结束

 

【hdfs】

1.查询文件或目录

hdfs dfs -ls 目录名   

如:hdfs dfs -ls /winhadoop/org/ipva_third_data/2024/03/07

查看根目录 hdfs dfs -ls

2.查看文件内容

hdfs dfs -cat 文件名  如:hdfs dfs -cat /test/a.txt

3.查找文件或目录  查找使用-find

hdfs dfs -find 文件目录 | grep 搜索文字 

如:hdfs dfs -find /test | grep a.txt

4.对文件内容进行过滤(查找文件中有的Capid_0000158的行)   使用 -cat查看文件,过滤使用 | grep 

hdfs dfs -find 文件名 | grep 搜索文字

如:hdfs dfs -find /test/a.txt | grep Capid_0000158

5.把文件从目录1移动到目录2 

hdfs dfs -mv 目录1/文件 目录2

如:hdfs dfs -mv /test/a.txt /winhadoop  把/test/a.txt移动到/winhadoop目录下

6.创建一个文件

hdfs dfs -touch /test/a.txt

在根目录下创建文件 hdfs dfs -touch a.txt

7.在文件中写入内容 

echo '写入内容' | hdfs dfs -appendToFile - 文件名        注意写入内容要用‘ ’引起来

如:echo 'hello world' | hdfs dfs -appendToFile - /test.a,txt       在/test.a,txt文件中写入hello world

8.删除文件

hdfs dfs -rm /test/a.txt

 

【hbase】

1.连接hbase: hbase shell
退出hbase: quit 或 ctrl+c

2.查询:
get 'tablename','value'
scan 'tablename',{FILTER=>"PrefixFilter('value')"}

查询整表数据
scan 'test2'

3.插入:
put命令:put ‘table_name’,’ rowKey’,’列簇:列’,’value’
put 'traffic_through','f1b76f24b7#20210118#1','d:1530','34#6'

4.删除:
delete 命令: delete ‘table_name’,'rowKey','列簇:列'
delete 'traffic_inout','ad8d2f80d7#20210118#1','d:1530'

删除全表数据
truncate 'test2'

 

标签:hdfs,dfs,hive,test,hbase,txt
From: https://www.cnblogs.com/plzh/p/18070759

相关文章

  • Hbase常见面试题
    major和minorcompaction区别:1.minor操作:达到TTL(记录保留时间)会被移除,删除和更新的数据仅仅只是做了标记,并没有物理移除,这种合并的触发频率很高。小合并不做数据删除,因为发生频率比较高,消耗性能小。2.major操作:是对region下的hstore下的所有storefile执行合并操作,最终的......
  • HDFS读数据流程、NN和2NN工作机制、DataNode工作机制、数据完整性
    HDFS读数据流程    事件描述:客户端要下载一个200m的数据文件,hdfs是如何读取的。   两个对象:一个客户端、一个集群   流程:       1.客户端创建一个分布式文件系统(DistributedFileSystem),向集群NameNode请求下载文件。       ......
  • Hive-源码分析一条hql的执行过程
    一、源码下载 下面是hive官方源码下载地址,我下载的是hive-3.1.3,那就一起来看下吧https://dlcdn.apache.org/hive/hive-3.1.3/apache-hive-3.1.3-src.tar.gz二、上下文<Hive-源码带你看hive命令背后都做了什么>博客中已经讲到了hive命令执行后会一直循环处理控制台输入的hq......
  • hive分区和分桶你熟悉吗?
    两种用于优化查询性能的数据组织策略,数仓设计的关键概念,可提升Hive在读取大量数据时的性能。1分区(Partitioning)根据表的某列的值来组织数据。每个分区对应一个特定值,并映射到HDFS的不同目录。常用于经常查询的列,如日期、区域等。这样可以在查询时仅扫描相关的分区,而不是整个数......
  • hive启动
    1.第一次启动初始化(使用mysql存储其元数据)bin/schematool-initSchema-dbTypemysql-verbos2.启动metastore服务bin/hive--servicemetastorenohupbin/hive--servicemetastore&bin/hive--servicemetastore--hiveconfhive.root.logger=DEBUG,console3.启动h......
  • Hbase的底层操作原理
    1、HBase读流程 1)Client先访问zookeeper,从meta表读取region的位置,然后读取meta表中的数据。meta中又存储了用户表的region信息;2)根据namespace、表名和rowkey在meta表中找到对应的region信息;3)找到这个region对应的regionserver;4)查找对应的region;5)先从MemStore找数据,如果没有,再......
  • Hbase介绍
    什么是HbaseHbase是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可在廉价的PCServer上搭建大规模结构化存储集群。利用HadoopHDFS作为其文件存储系统,利用HadoopMapReduce来处理Hbase中的海量数据,利用Zookeeper作为其分布式协同服务主要......
  • Hive - 表的存储格式
     Hive的文件存储格式包括:textfile、sequence、rcfile、orc、parquet textfile(简介)默认的文件格式,基于行存储。建表时不指定存储格式即为textfile,导入数据时把数据文件拷贝到hdfs不进行处理。(优点)便于和其他工具(pig,grep,sed,awk)共享数据,便于查看和编辑,加载较快。(缺点)耗费存储......
  • snappy压缩格式下使用数字与字符串不等于比较,hiveSQL和sparkSQL表现不一致的行为记录
    Hive版本:2.3.4Spark版本:2.4.0当时用Snappy格式对表进行压缩时,时用<>符号将字符串与数字进行比较会产生不一致的结果。SparkSQL结果并非预期结果。DROPTABLEIFEXISTStest.zero_test;CREATETABLEtest.zero_testTBLPROPERTIES("orc.compress"="SNAPPY")ASSELECT......
  • hbase自动化建表脚本
    脚本内容如下#!/bin/bashv_date=`date-d'+1day'+%Y%m%d`delete_date=`date-d'-8day'+%Y%m%d`end_date=`date-d'+3day'+%Y%m%d`while[$v_date!=$end_date]doecho"正在创建hbase表namespace:table_name_${v_date}...........