七、hive、hdfs、hbase查询总结

时间：2024-03-13 16:59:52浏览次数：22

标签：hdfs dfs hive test hbase txt

【hive】

1.连接hive：

hive

2.hive中查询：

同mysql，如 select * from tablename;

注意：hive中的操作一定要加分号; 否则语句一直不结束

【hdfs】

1.查询文件或目录

hdfs dfs -ls 目录名

如：hdfs dfs -ls /winhadoop/org/ipva_third_data/2024/03/07

查看根目录 hdfs dfs -ls

2.查看文件内容

hdfs dfs -cat 文件名如：hdfs dfs -cat /test/a.txt

3.查找文件或目录查找使用-find

hdfs dfs -find 文件目录 | grep 搜索文字

如：hdfs dfs -find /test | grep a.txt

4.对文件内容进行过滤（查找文件中有的Capid_0000158的行）使用 -cat查看文件，过滤使用 | grep

hdfs dfs -find 文件名 | grep 搜索文字

如：hdfs dfs -find /test/a.txt | grep Capid_0000158

hdfs dfs -mv 目录1/文件目录2

如：hdfs dfs -mv /test/a.txt /winhadoop 把/test/a.txt移动到/winhadoop目录下

6.创建一个文件

hdfs dfs -touch /test/a.txt

在根目录下创建文件 hdfs dfs -touch a.txt

7.在文件中写入内容

echo '写入内容' | hdfs dfs -appendToFile - 文件名注意写入内容要用‘ ’引起来

如：echo 'hello world' | hdfs dfs -appendToFile - /test.a,txt 在/test.a,txt文件中写入hello world

8.删除文件

hdfs dfs -rm /test/a.txt

【hbase】

1.连接hbase: hbase shell
退出hbase: quit 或 ctrl+c

2.查询：
get 'tablename','value'
scan 'tablename',{FILTER=>"PrefixFilter('value')"}

查询整表数据
scan 'test2'

3.插入：
put命令：put ‘table_name’,’ rowKey’,’列簇:列’,’value’
put 'traffic_through','f1b76f24b7#20210118#1','d:1530','34#6'

4.删除：
delete 命令: delete ‘table_name’,'rowKey','列簇:列'
delete 'traffic_inout','ad8d2f80d7#20210118#1','d:1530'

删除全表数据
truncate 'test2'

标签：hdfs,dfs,hive,test,hbase,txt
From： https://www.cnblogs.com/plzh/p/18070759

Hbase常见面试题
major和minorcompaction区别：1.minor操作：达到TTL（记录保留时间）会被移除，删除和更新的数据仅仅只是做了标记，并没有物理移除，这种合并的触发频率很高。小合并不做数据删除，因为发生频率比较高，消耗性能小。2.major操作：是对region下的hstore下的所有storefile执行合并操作，最终的......
HDFS读数据流程、NN和2NN工作机制、DataNode工作机制、数据完整性
HDFS读数据流程事件描述：客户端要下载一个200m的数据文件，hdfs是如何读取的。两个对象：一个客户端、一个集群流程: 1.客户端创建一个分布式文件系统（DistributedFileSystem），向集群NameNode请求下载文件。 ......
Hive-源码分析一条hql的执行过程
一、源码下载下面是hive官方源码下载地址，我下载的是hive-3.1.3，那就一起来看下吧https://dlcdn.apache.org/hive/hive-3.1.3/apache-hive-3.1.3-src.tar.gz二、上下文<Hive-源码带你看hive命令背后都做了什么>博客中已经讲到了hive命令执行后会一直循环处理控制台输入的hq......
hive分区和分桶你熟悉吗？
两种用于优化查询性能的数据组织策略，数仓设计的关键概念，可提升Hive在读取大量数据时的性能。1分区（Partitioning）根据表的某列的值来组织数据。每个分区对应一个特定值，并映射到HDFS的不同目录。常用于经常查询的列，如日期、区域等。这样可以在查询时仅扫描相关的分区，而不是整个数......
hive启动
1.第一次启动初始化（使用mysql存储其元数据）bin/schematool-initSchema-dbTypemysql-verbos2.启动metastore服务bin/hive--servicemetastorenohupbin/hive--servicemetastore&bin/hive--servicemetastore--hiveconfhive.root.logger=DEBUG,console3.启动h......
Hbase的底层操作原理
1、HBase读流程 1）Client先访问zookeeper，从meta表读取region的位置，然后读取meta表中的数据。meta中又存储了用户表的region信息；2）根据namespace、表名和rowkey在meta表中找到对应的region信息；3）找到这个region对应的regionserver；4）查找对应的region；5）先从MemStore找数据，如果没有，再......
Hbase介绍
什么是HbaseHbase是一个高可靠、高性能、面向列、可伸缩的分布式存储系统，利用Hbase技术可在廉价的PCServer上搭建大规模结构化存储集群。利用HadoopHDFS作为其文件存储系统,利用HadoopMapReduce来处理Hbase中的海量数据,利用Zookeeper作为其分布式协同服务主要......
Hive - 表的存储格式
Hive的文件存储格式包括：textfile、sequence、rcfile、orc、parquet textfile（简介）默认的文件格式，基于行存储。建表时不指定存储格式即为textfile，导入数据时把数据文件拷贝到hdfs不进行处理。（优点）便于和其他工具（pig，grep，sed，awk）共享数据，便于查看和编辑，加载较快。（缺点）耗费存储......
snappy压缩格式下使用数字与字符串不等于比较，hiveSQL和sparkSQL表现不一致的行为记录
Hive版本：2.3.4Spark版本：2.4.0当时用Snappy格式对表进行压缩时，时用<>符号将字符串与数字进行比较会产生不一致的结果。SparkSQL结果并非预期结果。DROPTABLEIFEXISTStest.zero_test;CREATETABLEtest.zero_testTBLPROPERTIES("orc.compress"="SNAPPY")ASSELECT......
hbase自动化建表脚本
脚本内容如下#!/bin/bashv_date=`date-d'+1day'+%Y%m%d`delete_date=`date-d'-8day'+%Y%m%d`end_date=`date-d'+3day'+%Y%m%d`while[$v_date!=$end_date]doecho"正在创建hbase表namespace:table_name_${v_date}...........

七、hive、hdfs、hbase查询总结

相关文章

赞助商

阅读排行