Hive的分区表的作用是啥? 越多越好吗?为啥嘞?
分区表的作用:
分区表极小的缩小了,数据的查找范围,提高查询速度和性能。
越多越好吗:
不是的,
原因:
hive如果有过多的分区,由于底层是存储在HDFS上,HDFS上只有用于存储大文件,而非下文件,因为过多的分区会增加 NameNode 的负担;hive会转化成 mapreduce ,mapreduce会转化成多个task,过多的小文件的话,每个文件一个task,每个task一个JVM实例,JVM的开启和销毁会降低系统效率。所以hive的分区表不是越多越好。
标签:文件,task,越多越好,hive,分区表,Hive From: https://www.cnblogs.com/LXLwantwin/p/16949521.html