首页 > 其他分享 >Hive - 表的存储格式

Hive - 表的存储格式

时间:2024-03-06 10:44:29浏览次数:19  
标签:存储 简介 Hive 查询 格式 rcfile

 

Hive的文件存储格式包括:textfile、sequence、rcfile、orc、parquet

 

textfile

(简介)默认的文件格式,基于行存储。建表时不指定存储格式即为textfile,导入数据时把数据文件拷贝到hdfs不进行处理。

(优点)便于和其他工具(pig,grep,sed,awk)共享数据,便于查看和编辑,加载较快。

(缺点)耗费存储空间,I/O性能较低;Hive不进行数据切分合并,不能进行并行操作,查询效率低。

(应用场景)适用于小型查询,查看具体数据内容的测试操作。

 

sequence

(简介)含有键值对的二进制文件,行存储。

(优点)可压缩、可分割,优化磁盘利用率和I/O;可并行操作数据,查询效率高。

(缺点)存储空间消耗最大;对于hadoop生态系统之外的工具不适用,需要通过text文件转化加载。

(应用场景)适用于数据量较小、大部分列的查询。

 

rcfile

(简介)行列式存储。先将数据按行分块,同一个record 在一个块上,避免读一条记录需要读多个 block;然后块数据列式存储。

(优点)可压缩,高效的列存取;查询效率较高。

(缺点)加载时性能消耗较大,需要通过 text 文件转化加载;读取全量数据性能低。

 

orc

(简介)优化后的 rcfile,行列式存储。

(优缺点)优缺点与rcfile类似,查询效率较高。

(应用场景)适用于hive中大型的存储、查询。

在2021到2023这三年的工作中,遇到最多的表的存储格式,但一般都是开启事务,即torc表。

 

parquet

(简介)列存储

(优点)更高效的压缩和编码;不与任何数据处理技术绑定,可用于多种数据处理框架(hive、Impala,Presto查询引擎;MR,Spark计算框架;Avro,Thrift,PB数据模型)。

(缺点)不支持 update,insert,delete,ACID

(应用场景)适用于字段数非常多,无更新,只取部分列的查询。

 

 

END

标签:存储,简介,Hive,查询,格式,rcfile
From: https://www.cnblogs.com/houhuilinblogs/p/18056001

相关文章

  • 戴尔MD3200 存储SAS SAN多路径 VS openEuler 22.03 LTS SP2
    确保系统已经安装好多路径软件;以及设定为开机自启动。编辑简版配置文件;/etc/multipath.confdefaults{user_friendly_namesyesfind_multipathsyes}blacklist{#屏蔽本地除了系统之外的硬盘wwid36b82a720cf15c5001b31a48d05dac974}multipaths{multipath{wwi......
  • InnoDB存储引擎对MVCC的实现
    一 多版本并发控制(Multi-VersionConcurrencyControl)1、读操作(SELECT):当一个事务执行读操作时,它会使用快照读取。快照读取是基于事务开始时数据库中的状态创建的,因此事务不会读取其他事务尚未提交的修改。具体工作情况如下:对于读取操作,事务会查找符合条件的数据行,并选择符......
  • K8S --存储卷
    存储卷容器磁盘上的文件的生命周期是短暂的,这就使得在容器中运行重要应用时会出现一些问题。首先,当容器崩溃时,kubelet会重启它,但是容器中的文件将丢失——容器以干净的状态(镜像最初的状态)重新启动。其次,在Pod中同时运行多个容器时,这些容器之间通常需要共享文件。Kubernetes中......
  • SQLSERVER FORMAT() 格式化日期、数字等用法示例
    --格式化日期SELECTFORMAT(GETDATE(),'d','en-US')--11/17/2023,FORMAT(GETDATE(),'d','zh-cn')--2023/11/17,FORMAT(GETDATE(),'D','en-US')--Friday,Novemb......
  • 解决表格修改格式后需要双击才能生效
    下载或复制值的Excel、WPS表格常会遇到,修改格式后不生效需要双击才会变化的情况。解决方法数据->分列->tab键->下一步->完成......
  • 存储过程Stored Procedure
    1、前言 存储过程(StoredProcedure),是一组为了完成特定功能的SQL语句,集经编译后存储在数据库中,用户通过指定存储过程的名字并给出参数,如果该存储过程带有参数来执行。简单的说就是专门干一件事一段sql语句。可以由数据库自己去调用,也可以由程序去调用。 存储过程的优点:......
  • snappy压缩格式下使用数字与字符串不等于比较,hiveSQL和sparkSQL表现不一致的行为记录
    Hive版本:2.3.4Spark版本:2.4.0当时用Snappy格式对表进行压缩时,时用<>符号将字符串与数字进行比较会产生不一致的结果。SparkSQL结果并非预期结果。DROPTABLEIFEXISTStest.zero_test;CREATETABLEtest.zero_testTBLPROPERTIES("orc.compress"="SNAPPY")ASSELECT......
  • powerpoint: 使用格式刷
    一,设置源格式现在有三个文本框,我们的目标是把2,3,修改成1的样式:说明:刘宏缔的架构森林—专注it技术的博客,网址:https://imgtouch.com本文: https://blog.imgtouch.com/index.php/2024/02/28/powerpoint-shi-yong-ge-shi-shua/代码: https://github.com/liuhongdi/ 或 ht......
  • 从MySQL到ByteHouse,抖音精准推荐存储架构重构解读
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群抖音依靠自身推荐系统为用户推送可能感兴趣的视频内容,其中兴趣圈层是推荐的重要能力,通过理解核心用户的偏好特征,判断两者偏好的相似性,从而构建同类用户的兴趣圈层,实现精准推荐。以往的兴趣圈......
  • Git无法正常工作,因为检测到XXX存储库可能不安全(unsafe repository)的解决方法
    背景前两天因为对硬盘进行了误操作,导致系统无法进入,只能重新安装。待系统安装完毕后第一时间将VS下了回来。在VS开发环境部署完毕后,我打开了自己的解决方案,结果在“Git更改”选项卡内遇到了如下图的提示(分别是VS2022和VS2019): 过程在点击“将其标记为安全”后该存储库可以正......