首页 > 其他分享 >hive表分区存储

hive表分区存储

时间:2022-12-03 21:12:46浏览次数:59  
标签:存储 string 分区 hive 查询 字段 分区表

1、创建hive分区表

create table if not exists tb1
(
id string,
name string
)
partitioned by(dt string)

2、分区表的字段个数可以大于数据源表

背景:数据源为SQLServer,每天新增200W条数据,需要每天定时导入到Hive库中。

问题:用户指定需要按照Timestamp字段分区,因为SQLServer库和Hive库分别在两个不同的系统中,这样一来,如果拿Timestamp字段作为分区字段,

势必会丢失时间精度(从 yyyy-MM-dd hh:MM:ss.xxxx 丢失到 yyyy-MM-dd),因为这些字段都是工业上的实时读取的值,这个结果不是客户预期的。

解决方案:保持生产数据的结构不变,新建一张表(比生产的库新增一条字段),并以此字段作为分区字段,来完成分区操作(主要解决查询效率问题)

生产的表:

 

建的分区表:

 

 

3、对分区表的理解

hive底层是用hdfs来做存储的,所以hive的分区表可以理解为文件夹存储形式。在对分区表进行查询时,分区查询信息可输入可不输入。

但是,在数据量较大时,根据分区查询将极大提高效率。

eg:查询分区数据,其实和正常的SQL查询基本一致,只是如下例子中的create_date字段,是建分区表时的分区字段而已:

select * from AccountRegister where create_date="2014-10-1";

4、动态创建分区表

ref:https://blog.csdn.net/qq_41489540/article/details/108771653

https://blog.csdn.net/qq_44868502/article/details/102851282

 

标签:存储,string,分区,hive,查询,字段,分区表
From: https://www.cnblogs.com/caesar-the-great/p/16948775.html

相关文章

  • 图的存储之邻接矩阵
    邻接矩阵存图:c++1#include<iostream>2usingnamespacestd;34classAM//邻接矩阵存图用法AM图的名称={规模长(int),规模宽(int),是否为无向图,是为true,......
  • 这就是搜索引擎(6) 云存储之BigTable
    0.背景BigTable是一个负责管理海量结构化或者半结构化数据的分布式存储系统。在Google的云存储体系中处于核心地位,起到了承上启下的作用。之前说的GFS是一个分布式的海量......
  • zfile 在线云盘、网盘、OneDrive、云存储、私有云、对象存储、h5ai、上传、下载
    基于Java的在线网盘程序,支持对接S3、OneDrive、SharePoint、又拍云、本地存储、FTP、SFTP等存储源,支持在线浏览图片、播放音视频,文本文件、Office、obj(3d)等文件类型。......
  • ASP.NET中如何调用存储过程
     用ASP.NET与SQLSERVER可是缘份最好了,稍大的程序一般第一先考虑的是SQLSERVER,只是一些很考虑经济的才使用ACCESS等了。用SQLSERVER,为了使数据库的效率更好,一般都会才取......
  • asp教程:ASP开发中存储过程应用详解
    ASP开发中存储过程应用详解|调用,参数,存储,数据库,输出,编译,mycomm,输入,userid,代码ASP与存储过程(StoredProcedures)的文章不少,但是我怀疑作者们是否真正实践过。......
  • 使用iSCSI服务部署网络存储
    实验环境:主机名称操作系统IP地址iSCSI服务端CentOS7.4192.168.126.131iSCSI客户端CentOS7.4192.168.126.200iSCSI客户端Windows10专业版192.168.126.2......
  • Linux-iscsi存储服务配置实验
    1)给一台centos7虚拟主机添加一个硬盘50G硬盘,同时由一台centos7虚拟机克隆后修改克隆主机IP地址。Crt连上两台虚拟机,改主机名:#先添加硬盘在开机省略掉扫描总线步骤#ifcon......
  • 行式存储和列式存储的区别
    1.什么是行式存储和列式存储?2.行式存储分析?缺点:--行式在读取数据的时候,所查询的目标只涉及少数几项属性,但由于这些目标数据埋藏在各行数据单元中,而行单元又特别大,......
  • Hive数据的导入和导出
    导入以下通过hive交互shell执行//创建ai库createdatabaseai;showdatabases;//创建表partition添加分区字段用tab间隔createtabletable_name(namestring,encode......
  • VMware VCSA 6.7配置vSAN存储
    一、建存储网络1、点击主机右键新建网络 2、选择连接类型 3、选择目标设备 4、分配适配器 5、填写端口属性 6、配置存储网......