首页 > 其他分享 >开课啦!走进大数据讲堂,一文从0到1学习数据湖Paimon(实践篇一)之集成hive实战演练?助力数据湖面试

开课啦!走进大数据讲堂,一文从0到1学习数据湖Paimon(实践篇一)之集成hive实战演练?助力数据湖面试

时间:2024-03-02 15:44:05浏览次数:23  
标签:Hive apache hive test Paimon 数据 paimon

 

第3章 集成 Hive 引擎

前面与Flink集成时,通过使用 paimon Hive Catalog,可以从 Flink 创建、删除、查询和插入到 paimon 表中。这些操作直接影响相应的Hive元存储。以这种方式创建的表也可以直接从 Hive 访问。

更进一步的与 Hive 集成,可以使用 Hive SQL创建、查询Paimon表。

3.1 环境准备

Paimon 目前支持 Hive 3.1、2.3、2.2、2.1 和 2.1-cdh-6.3。支持 Hive Read 的 MR 和 Tez 执行引擎,以及 Hive Write 的 MR 执行引擎(beeline也不支持hive write)。

在Hive根目录下创建auxlib文件夹,将paimon-hive-connector-0.5-SNAPSHOT.jar复制到auxlib中(不推荐用add jar,MR 引擎运行 join 语句会报异常):

下载地址:https://repository.apache.org/snapshots/org/apache/paimon/paimon-hive-connector-3.1/0.5-SNAPSHOT/

mkdir /opt/module/hive/auxlib

cp paimon-hive-connector-3.1-0.5-20230703.002437-65.jar /opt/module/hive/auxlib

3.2 访问已有的Paimon表

USE test;

SHOW TABLES;

 

SELECT * FROM ws_t;

 

INSERT INTO test_table VALUES (9,9,9);

3.3 创建Paimon表

SET hive.metastore.warehouse.dir=hdfs://hadoop102:8020/paimon/hive;

 

CREATE TABLE test_h(

  a INT COMMENT 'The a field',

  b STRING COMMENT 'The b field'

)

STORED BY 'org.apache.paimon.hive.PaimonStorageHandler'

3.4 通过外部表访问Paimon表

要访问现有的 paimon 表,还可以将它们注册为 Hive 中的外部表,不需要指定任何列或表属性,只需要指定路径。

CREATE EXTERNAL TABLE test.hive_ex

STORED BY 'org.apache.paimon.hive.PaimonStorageHandler'

LOCATION 'hdfs://hadoop102:8020/paimon/hive/test.db/ws_t';

–或将路径写在表属性中:

CREATE EXTERNAL TABLE hive_ex

STORED BY 'org.apache.paimon.hive.PaimonStorageHandler'

TBLPROPERTIES (

 'paimon_location' ='hdfs://hadoop102:8020/paimon/hive/test.db/ws_t'

);

操作外部表:

SELECT * FROM hive_ex;

INSERT INTO hive_ex VALUES (8,8,8);
 
 

标签:Hive,apache,hive,test,Paimon,数据,paimon
From: https://www.cnblogs.com/huanghanyu/p/18048717

相关文章

  • PostgreSQL、KingBase 数据库 ORDER BY LIMIT 查询缓慢案例
    好久没写博客了,最近从人大金仓离职了,新公司入职了蚂蚁集团,正在全力学习 OcenaBase 数据库的体系结构中。以后分享的案例知识基本上都是以OcenaBase分布式数据库为主了,呦西。......
  • scrapy——分别存储在文本文件和mysql数据库中
    笔记如何将爬取到的数据一份存储到本地一份存储到数据库?-创建一个管道类-爬虫文件提交到的item指挥给管道文件中的第一个被执行的管道类接收-process_item方法中的returnitem表示将item提交给下一个管道类在pipelines类中加入MysqlPiplines类#Defineyour......
  • 使用 Docker 部署 Nacos 并配置 MySQL 数据源
    前言在安装Nacos之前,请确保你已经准备好了一个运行中的MySQL数据库。本教程将指导您如何使用Docker在单机模式下部署Nacos,并将其数据持久化到MySQL中。步骤一:拉取Nacos镜像拉取最新版本的NacosServer镜像,也可以指定特定版本:dockerpullnacos/nacos-server如果你......
  • scrapy数据解析
    importscrapyclassDouSpider(scrapy.Spider):name="dou"#allowed_domains=["www.douban.com"]start_urls=["https://www.douban.com/doulist/113652271/"]defparse(self,response):div_=response......
  • sqlserver数据库还原
    USE[master];GORESTOREFILELISTONLYFROMDISK='E:\SqlServer\最新数据库\GLASS_2024-03-02.bak'--查询bak备份信息--关闭链接ALTERDATABASE[GLASS]SETOFFLINEWITHROLLBACKIMMEDIATERESTOREDATABASEGLASS......
  • Lazada电商api接口 获取商品详情 数据采集
    iDataRiver平台https://www.idatariver.com/zh-cn/提供开箱即用的Lazada电商数据采集API,供用户按需调用。接口使用详情请参考Lazada接口文档接口列表获取用户详情参数类型是否必填默认值示例值描述apikeystring是idr_***从控制台里复制apikeyitem_idn......
  • 【计算机网络】数据链路层——流量控制&可靠传输机制
    数据链路层的流量控制较高的发送速度和较低的接收能力的不匹配,会造成传输出错,因此流量控制也是数据链路层的一项重要工作。数据链路层的流量控制是点对点的,而传输层的流量控制是端到端的。数据链路层流量控制手段:接收方收不下就不回复确认。传输层流量控制手段:接收端给发送......
  • 高速数据采集卡在宽带实时频谱分析中应用
    简介QT7012+QT7125+是一款支持交流耦合宽带信号输入的高精度高速数据采集卡,它具有12bit分辨率、2通道和5GSPS采样率的指标。板载FPGA具备实时信号处理能力,可以进行大数据量的实时信号处理,配备宽带实时频谱分析功能,频率范围10MHz~8GHz,实时频谱分析带宽500MHz;具备外部参考时钟输入......
  • 【计算机网络】数据链路层概述
    数据链路层功能概述研究思想基本概念术语结点:主机、路由器链路:网络中两个结点之间的物理通道,链路的传输介质主要有双绞线、光纤和微波。分为有线链路、无线链路。数据链路:网络中两个结点之间的逻辑通道,把实现控制数据传输协议的硬件和软件加到链路上就构成数据链路。帧:......
  • 【计算机网络】数据链路层——差错控制
    差错控制(检错)差错从何而来?概括来说,传输中的差错都是由于噪声引起的。全局性由于线路本身电气特性所产生的随机噪声(热噪声),是信道固有的,随机存在的。解决办法:提高信噪比来减少或避免干扰。(对传感器下手)局部性外界特定的短暂原因所造成的冲击噪声,是产生差错的主要原......