Iceberg从入门到精通系列之七：Flink SQL创建Catalog

时间：2023-09-11 10:04:33浏览次数：42

标签：之七 Flink catalog hive hadoop Catalog sql warehouse type

Iceberg从入门到精通系列之七：Flink SQL创建Catalog

一、语法说明
二、flink集成hive jar包
三、放到指定目录
四、启动hive metastore服务
五、创建hive catalog
六、查看catalog
七、Hadoop Catalog
八、创建sql-client初始化文件
九、启动flink sql指定初始化文件

一、语法说明

create catalog <catalog_name> with (
 'type'='iceberg',
 `<config_key>`=`<config_value>`
);

type：必须是iceberg
catalog-type：内置了hive和hadoop两种catalog，也可以使用catalog-impl来自定义catalog。
catalog-impl：自定义catalog实现的全限定类名。如果未设置catalog-type，则必须设置。
property-version：描述属性版本的版本号。此属性可用于向后兼容，以防属性格式更改。当前属性版本为1.
cache-enabled：是否启用目录缓存，默认值为true。
cache.expiration-interval-ms：本地缓存catalog条目的时间(以毫秒为单位)。负值，如-1表示没有时间限制，不允许设为0，默认值为-1。

二、flink集成hive jar包

下载jar包：

https://mvnrepository.com/artifact/org.apache.flink/flink-sql-connector-hive-3.1.2_2.11/1.14.6

三、放到指定目录

cp flink-sql-connector-hive-3.1.2_2.11.jar /module/flink-1.17.1/lib/

四、启动hive metastore服务

hive --service metastore

五、创建hive catalog

重启flink 集群，重新进入sql-client

CREATE CATALOG hive_catalog WITH (
	'type'='iceberg',
	'catalog-type'='hive',
	'url'='thrift://hadoop1:9083',
	'clients'='5',
	'property-version'='1',
	'warehouse'='hdfs://hadoop1:8020/warehouse/iceberg-hive'
);

use catalog hive_ccatalog;

url：Hive metastore的thrift url
clients：Hive metastore客户端池大小，默认为2
warehouse：数仓目录
hive-conf-dir：包含hive-site.xml配置文件的目录路径，hive-site.xml中hive.metastore.warehouse.dir的值会被warehouse覆盖
hadoop-conf-dir：包含core-site.xml和hdfs-site.xml配置文件的目录路径

六、查看catalog

show catalogs;


show current catalog;

七、Hadoop Catalog

Iceberg还支持HDFS中基于目录的catalog，可以使用‘catalog-type’='hadoop’配置

create catalog hadoop_catalog with(
'type'='iceberg',
'catalog-type'='hadoop',
'warehouse'='hdfs://hadoop1:8020/warehouse/iceberg-hadoop',
'property-version'='1'
);

use catalog hadoop_catalog;

warehouse：存放元数据文件和书籍文件的HDFS目录。

八、创建sql-client初始化文件

vim sql-client-init.sql

CREATE CATALOG hive_catalog WITH (
	'type'='iceberg',
	'catalog-type'='hive',
	'url'='thrift://hadoop1:9083',
	'clients'='5',
	'property-version'='1',
	'warehouse'='hdfs://hadoop1:8020/warehouse/iceberg-hive'
);

create catalog hadoop_catalog with(
'type'='iceberg',
'catalog-type'='hadoop',
'warehouse'='hdfs://hadoop1:8020/warehouse/iceberg-hadoop',
'property-version'='1'
);

use catalog hive_ccatalog;

九、启动flink sql指定初始化文件

bin/sql-client.sh -i conf/sql-client-init.sql

标签：之七,Flink,catalog,hive,hadoop,Catalog,sql,warehouse,type
From： https://blog.51cto.com/u_12080573/7432194

Iceberg从入门到精通系列之六：Flink集成Iceberg
Iceberg从入门到精通系列之六：Flink集成Iceberg一、下载Flink二、解压Flink安装包三、配置环境变量四、激活环境变量五、下载Icebergflinkjar包六、部署Icebergflinkjar包七、修改flink配置八、启动flink九、启动flinksqlclient一、下载Flink下载Flink：https://www.apache.o......
在flink-1.17中测试执行流处理版本的单词计数程序时，出现"Exception in thread "Thread
场景描述采用单作业模式提交作业后发现报错了报错内容Exceptioninthread“Thread-5”java.lang.IllegalStateException:Tryingtoaccessclosedclassloader.Pleasecheckifyoustoreclassloadersdirectlyorindirectlyinstaticfields.Ifthestacktrace......
Flink 1.17教程：聚合算子（Aggregation）之按键分区（keyBy）
聚合算子（Aggregation）计算的结果不仅依赖当前数据，还跟之前的数据有关，相当于要把所有数据聚在一起进行汇总合并——这就是所谓的“聚合”（Aggregation），类似于MapReduce中的reduce操作。按键分区（keyBy）对于Flink而言，DataStream是没有直接进行聚合的API的。因为我们对海量数据做聚合肯定要......
Flink 1.17教程：输出算子之输出到MySQL（JDBC）
输出到MySQL（JDBC）写入数据的MySQL的测试步骤如下。（1）添加依赖添加MySQL驱动：mysqlmysql-connector-java8.0.27官方还未提供flink-connector-jdbc的1.17.0的正式依赖，暂时从apachesnapshot仓库下载，pom文件中指定仓库路径：apache-snapshotsapachesnapshotshttps://repository.a......
Flink 1.17教程：输出算子（Sink）之连接到外部系统
输出算子（Sink）Flink作为数据处理框架，最终还是要把计算处理的结果写入外部存储，为外部应用提供支持。连接到外部系统Flink的DataStreamAPI专门提供了向外部写入数据的方法：addSink。与addSource类似，addSink方法对应着一个“Sink”算子，主要就是用来实现与外部系统连接、并将数据提交写......
Flink 1.17教程：基本合流操作
基本合流操作在实际应用中，我们经常会遇到来源不同的多条流，需要将它们的数据进行联合处理。所以Flink中合流的操作会更加普遍，对应的API也更加丰富。联合（Union）最简单的合流操作，就是直接将多条流合在一起，叫作流的“联合”（union）。联合操作要求必须流中的数据类型必须相同，合并之后的新流......
Flink 1.17教程：输出算子之输出到文件
输出到文件Flink专门提供了一个流式文件系统的连接器：FileSink，为批处理和流处理提供了一个统一的Sink，它可以将分区文件写入Flink支持的文件系统。FileSink支持行编码（Row-encoded）和批量编码（Bulk-encoded）格式。这两种不同的方式都有各自的构建器（builder），可以直接调用FileSink的静态方......
flink kerberos认证源码剖析
文章目录01引言02flink的安全机制03源码流程分析3.1程序入口3.2安全模块安装3.3模块安装源码04文末01引言官方的文档：https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/security/security-kerberos/我们都知道，如果某个大数据组件（如：hadoop、flink等）......
Stable Diffusion WebUI插件：StyleSelectorXL 之七十七种绘画风格任君选择
本文给大家分享一个应用于SDXL的新插件：StyleSelectorXL。通过在UI界面上简单的选择，我们就可以生成多种多样的风格图片，如动漫、水彩、平面、3D、线稿、涂鸦、剪纸、朋克、童话等等。基本介绍用过SDXL的同学，应该能切身感受到其出图质量相比之前的SD1.5、2.x等版本都有了......
FLink
java.util.concurrent.TimeoutException:Invocationof[RemoteRpcInvocation(TaskExecutorGateway.requestSlot(SlotID,JobID,AllocationID,ResourceProfile,String,ResourceManagerId,Time))]atrecipient[akka.tcp://flink@teste-34:40647/user/rpc/taskmanager_......

Iceberg从入门到精通系列之七：Flink SQL创建Catalog

Iceberg从入门到精通系列之七：Flink SQL创建Catalog

一、语法说明

二、flink集成hive jar包

三、放到指定目录

四、启动hive metastore服务

五、创建hive catalog

六、查看catalog

七、Hadoop Catalog

八、创建sql-client初始化文件

九、启动flink sql指定初始化文件

相关文章

赞助商

阅读排行