首页 > 其他分享 >Hive的分区和分桶

Hive的分区和分桶

时间:2023-02-02 10:36:52浏览次数:48  
标签:string 分桶 分区 Hive bigint user id


为了避免全表扫描,优化查询性能,我们可以使用分区和分桶表将数据细化,分桶表是分区表的进阶阶段,分桶表是使用表的字段进行进一步细分数据,分区则是指定外部的字段来分区

分区表

create table  `alibaba.orders` ( order_id bigint,
user_id bigint,
item_id bigint,
times string,
name string,
address string,
phone string,
keyword int
)
PARTITIONED BY (dt STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS orc;

分桶表

create table  `alibaba.userInfo` ( order_id bigint,
user_id bigint,
address string,
phone string
)
clustered by (user_id) sorted by (user_id desc) into 4 buckets
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS orc;


标签:string,分桶,分区,Hive,bigint,user,id
From: https://blog.51cto.com/u_15063934/6033043

相关文章

  • Hive提取小时内,分组排名前3的sql
    表的结构是这样的,时间的范围我是提取了几个小时内的数据createtable`alibaba.user_bea`(user_idbigint,item_idbigint,cate_idbigint,timesstring......
  • hive的Caused by: org.apache.hadoop.hdfs.BlockMissingException: Could not obtain
    早上起来去跑个hive的sql,稍微复杂点sql,就会报错如Causedby:org.apache.hadoop.hdfs.BlockMissingException:Couldnotobtainblock:BP-572947236等,经过一个一个小时......
  • Ubuntu18添加swap分区
    swap分区,是系统内存不够用时,就需要把物理内存一部分空间释放出来,以供当前运行的程序使用。那些被释放的空间可能来自一些很长时间没有操作的程序,这些被释放的空间临时保存......
  • Hive 刷题——查询每个用户登录日期的最大空档期
    需求描述从登录明细表(user_login_detail)中查询每个用户两个登录日期(以login_ts为准)之间的最大的空档期。统计最大空档期时,用户最后一次登录至今的空档也要考虑在内,假设今......
  • hive优化
    hive优化1Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT*FROMemployees;在这种情况下,Hive可以简单地读取employee对应的存储目......
  • hive架构原理
    Hive架构原理1)用户接口:ClientCLI(command-lineinterface)、JDBC/ODBC(jdbc访问hive)、WEBUI(浏览器访问hive)2)元数据:Metastore元数据包括:表名、表所属的数据库(默认是default)、......
  • hive类型转化
    hive类型转化Hive的原子数据类型是可以进行隐式转换的,类似于Java的类型转换,例如某表达式使用INT类型,TINYINT会自动转换为INT类型,但是Hive不会进行反向转化,例如,某表达式使用T......
  • 设置和修改Linux的swap分区大小
    在Linux编译gcc时,遇到编译错误,究其根源是因为内存不足,这时通过修改swap大小解决了问题相关操作如下:1.查看当前分区情况free-m2.增加swap大小,2G左右ddif=/de......
  • Hive 刷题——统计每日商品1和商品2销量的差值
    需求描述从订单明细表(order_detail)中统计每天商品1和商品2销量(件数)的差值(商品1销量-商品2销量)期望结果如下:create_date diff 2020-10-08-24......
  • 千万级数据,如何做性能优化?分库分表、Oracle分区表?
    大家好,我是哪吒,最近项目有一个新的需求,​​按月建表,按天分区​​。不都是分库分表吗?怎么又来个分区?让我们一起,一探究竟,深入理解一下Oracle分区表技术,实现快速入门,丰富个人简......