首页 > 其他分享 >Hive 的分区表的作用,是否越多越好?

Hive 的分区表的作用,是否越多越好?

时间:2022-12-04 11:13:20浏览次数:42  
标签:文件 task 越多越好 hive 分区表 Hive

Hive的分区表的作用是啥? 越多越好吗?为啥嘞?

分区表的作用:

  分区表极小的缩小了,数据的查找范围,提高查询速度和性能。

越多越好吗:

  不是的,

原因:

  hive如果有过多的分区,由于底层是存储在HDFS上,HDFS上只有用于存储大文件,而非下文件,因为过多的分区会增加 NameNode 的负担;hive会转化成 mapreduce ,mapreduce会转化成多个task,过多的小文件的话,每个文件一个task,每个task一个JVM实例,JVM的开启和销毁会降低系统效率。所以hive的分区表不是越多越好。

标签:文件,task,越多越好,hive,分区表,Hive
From: https://www.cnblogs.com/LXLwantwin/p/16949521.html

相关文章

  • 《Hive性能调优实战》读书笔记
    很不错的一本书。章节划分清晰明了,可根据个人需要读相应的章节。Hive各个方面的知识体系都有涉及。可作为工具书,常读常新,值得翻阅。第2章Hive问题排查与调优思路优化方法PL......
  • Hive Beeline连接报错:Error: Could not open client transport with JDBC Uri: jdbc:h
    使用JDBC方式访问Hive时出现以下报错:Connectingtojdbc:hive2://hadoop102:1000022/11/2715:00:53[main]:WARNjdbc.HiveConnection:Failedtoconnecttoh......
  • Hive Sql 的三种分组排序
    在hivesql中有三种排序方式,分别是row_numberrankdense_rank。让我们看看他们各自的特点,row_number:每一行记录生生产一个序号,依次排序且不会重复,比如根据分数排......
  • 数仓中 HIVE 内外表对比
    分区表有外表和内表(管理表)的存在形式,他们的区别是什么?内部表(管理表):删除内部表会直接删除元数据以及存储的数据,对内部表的修改会将修改直接同步给元数据;外部表:......
  • hive表分区存储
    1、创建hive分区表createtableifnotexiststb1(idstring,namestring)partitionedby(dtstring)2、分区表的字段个数可以大于数据源表背景:数据源为SQLServer,每天......
  • Hive数据的导入和导出
    导入以下通过hive交互shell执行//创建ai库createdatabaseai;showdatabases;//创建表partition添加分区字段用tab间隔createtabletable_name(namestring,encode......
  • Hive 架构思想和设计原理
    1前言    卷友们,大家好~我是梦想家Alex。自上一篇原创文章 ​​HDFS,MapReduce,Yarn的架构思想和设计原理​​发出之后,后台就不断有读者催更,那本篇内容,我们继......
  • 用户画像 | 标签数据存储之Hive真实应用
    前言        小伙伴们大家好呀,趁着年假的几天时间,我写了一篇Elacticsearch从0到1的“长篇大作”,现在还在排版,相信很快就会与大家见面了!关于系统学习用户画像,之前......
  • Hive进阶
    title:Hive进阶cover:/cover_imgs/hive.pngtags:-Hivecategories:-Hive第1章 Explain查看执行计划(重点)1.1基础语法EXPLAIN[EXTENDED|DEPENDENCY|AUT......
  • hive sql语句转换成mapreduce
    hivesql语句转换成mapreduce 转:https://www.cnblogs.com/w-j-q/p/14863034.html#autoid-2-5-01.hive是什么?2.MapReduce框架实现SQL基本操作的原理是什么?3.Hive怎......