Flink MySQL CDC connector 使用注意事项

时间：2023-05-11 19:11:19浏览次数：53

标签：java CDC 18 Flink hadoop connector test org LocalCache

注意事项

表要有主键
库名和表名不能有点号

是个 BUG，估计后续会修复。

表名不能有大写

也是个 BUG，估计后续会修复。

如果表名含有大写的字母，查询时日志可看到如下信息：

java.util.concurrent.ExecutionException: java.io.FileNotFoundException: File does not exist: hdfs://hadoop/user/test/warehouse/test.db/ods_test
	at org.sparkproject.guava.util.concurrent.AbstractFuture.getDoneValue(AbstractFuture.java:552)
	at org.sparkproject.guava.util.concurrent.AbstractFuture.get(AbstractFuture.java:513)
	at org.sparkproject.guava.util.concurrent.AbstractFuture$TrustedFuture.get(AbstractFuture.java:90)
	at org.sparkproject.guava.util.concurrent.Uninterruptibles.getUninterruptibly(Uninterruptibles.java:199)
	at org.sparkproject.guava.cache.LocalCache$Segment.getAndRecordStats(LocalCache.java:2312)
	at org.sparkproject.guava.cache.LocalCache$Segment.loadSync(LocalCache.java:2278)
	at org.sparkproject.guava.cache.LocalCache$Segment.lockedGetOrLoad(LocalCache.java:2154)
	at org.sparkproject.guava.cache.LocalCache$Segment.get(LocalCache.java:2044)
	at org.sparkproject.guava.cache.LocalCache.get(LocalCache.java:3952)
	at org.sparkproject.guava.cache.LocalCache$LocalManualCache.get(LocalCache.java:4871)
	at org.apache.spark.sql.catalyst.catalog.SessionCatalog.getCachedPlan(SessionCatalog.scala:158)

而底层 HDFS 路径保持了大写：

2023-05-11 18:18:27,943 INFO  [47] [org.apache.hudi.util.StreamerUtil.initTableIfNotExists(StreamerUtil.java:335)]  - Table [hdfs://hadoop/user/test/warehouse/test.db/ODS_test/ODS_test] already exists, no need to initialize the table
2023-05-11 18:18:27,943 INFO  [47] [org.apache.hudi.util.StreamerUtil.initTableIfNotExists(StreamerUtil.java:337)]  - Table update under base path hdfs://hadoop/user/test/warehouse/test.db/ODS_test
2023-05-11 18:18:27,944 INFO  [47] [org.apache.hudi.common.table.HoodieTableMetaClient.updateTableAndGetMetaClient(HoodieTableMetaClient.java:507)]  - Update hoodie table with basePath hdfs://hadoop/user/test/warehouse/test.db/ODS_test
2023-05-11 18:18:27,949 INFO  [47] [org.apache.hudi.common.table.HoodieTableMetaClient.<init>(HoodieTableMetaClient.java:125)]  - Loading HoodieTableMetaClient from hdfs://hadoop/user/test/warehouse/test.db/ODS_test
2023-05-11 18:18:27,950 INFO  [47] [org.apache.hadoop.security.UserGroupInformation.initialize(UserGroupInformation.java:366)]  - Hadoop UGI authentication : TAUTH
2023-05-11 18:18:27,993 INFO  [47] [org.apache.hudi.common.table.HoodieTableConfig.<init>(HoodieTableConfig.java:295)]  - Loading table properties from hdfs://hadoop/user/test/warehouse/test.db/ODS_test/.hoodie/hoodie.properties
2023-05-11 18:18:28,212 INFO  [47] [org.apache.hudi.common.table.HoodieTableMetaClient.<init>(HoodieTableMetaClient.java:144)]  - Finished Loading Table of type MERGE_ON_READ(version=1, baseFileFormat=PARQUET) from hdfs://hadoop/user/test/warehouse/test.db/ODS_test
2023-05-11 18:18:29,730 INFO  [47] [org.apache.hudi.common.table.HoodieTableMetaClient.updateTableAndGetMetaClient(HoodieTableMetaClient.java:512)]  - Finished update Table of type MERGE_ON_READ from hdfs://hadoop/user/test/warehouse/test.db/ODS_test

Flink写	Spark读
hdfs://hadoop/user/test/warehouse/test.db/ODS_test	hdfs://hadoop/user/test/warehouse/test.db/ods_test

标签：java,CDC,18,Flink,hadoop,connector,test,org,LocalCache
From： https://www.cnblogs.com/aquester/p/17391955.html

Flink ML学习笔记
概念FlinkML是一个机器学习算法库。用户可以使用标准机器学习API或者自定义机器学习算法来进行离线或在线的模型训练和预测服务。一、环境准备安装1.15及以上版本的flink到本地环境导入flinktableapi相关依赖二、开发中的基本概念1、TableAPIFlinkML的API基于Flink......
消息推送平台的实时数仓？！flink消费kafka消息入到hive
大家好，3y啊。好些天没更新了，并没有偷懒，只不过一直在安装环境，差点都想放弃了。上一次比较大的更新是做了austin的预览地址，把企业微信的应用和机器人消息各种的消息类型和功能给完善了。上一篇文章也提到了，austin常规的功能已经更新得差不多了，剩下的就是各种细节的完善。不知道大......
启动flink sql 任务
README.md#howtouse#使用说明##确认是否初始化完成，当前yarn-session管理所有《用户属性任务》##任务名称为：bus_user_info_flinkjobpath=`pwd`00.确认是否已经存在yarnsession`shellyarnapp-list|grepapp_log_2_hudi_flinkJob`1.若未运行yarn......
flink中的Keyed State
Keyedstate是指在Flink中与一个特定key相关联的状态。在Flink中，数据被分区并按key分组。当数据流被分区和分组后，每个key都有一个对应的状态，这就是Keyedstate。它可以用于计算窗口、聚合操作和连续查询等。Keyedstate通常用于在流处理中跟踪关键得分、计数或其他与特定数据点相......
启动flink显示ERROR: JAVA_HOME is not set and could not be found.
问题：JAVA_HOME存在，但启动flink时出现ERROR:JAVA_HOMEisnotsetandcouldnotbefound.原因：环境变量加载顺序不对#/etc/profile.d/hadoop.sh#...exportHADOOP_CLASSPATH=`hadoopclasspath`JAVA_HOME是在java.sh里定义的，而hadoop.sh按照字典序先于java.sh加......
flink Connecting to remote task manager 'localhost/127.0.0.1:44489
问题：启动集群后，执行任务时失败：Causedby:org.apache.flink.runtime.io.network.partition.consumer.PartitionConnectionException:Connectionforpartition47d4a412246bdbbc3447e1968e07c821#1@04049d45261135a1a8bae9c8f62a1ba4_0a448493b4782967b150582570326227_1_0not......
两级式光伏并网逆变器，DCDC环节采用boost电路，通过增量电导法实现光伏最大功率跟踪MPPT
两级式光伏并网逆变器，DCDC环节采用boost电路，通过增量电导法实现光伏最大功率跟踪MPPT。逆变器采用二电平逆变器，通过双闭环控制，实现并网单位功率因数，并网电流与电网电压同相位，并网电流THD仅有1.3%，符合并网规范，并稳定直流侧母线电压。为了得到电网电网相位，采用基于双二阶广义积分器......
Flink Chain任务链分隔
Chain分隔文章目录Chain分隔如何切断任务链？startNewChain与disableChaining区别全局切断任务链(chain)web端效果查看隔离后依赖链忙碌程度什么是Backpressured(被压/反压)？代码样例参考文献如何切断任务链？由于共享slot的存在，当一个任务链的计算量特别庞大时，且只在一个slot上执行......
Flink Cdc MySQL 整库同步到 StarRocks
这段时间开始调研使用StarRocks做准实时数据仓库：flinkcdc实时同步数据到StarRocks，然后在StarRocks中做分层计算，直接把StarRocks中的ADS层提供给BI查询。架构如下：由于用到的表比较多，不能用FlinkSQL给每个表都做个CDC的任务（任务太多不好维护、对数据库又可能有......
数据湖Iceberg-FlinkSQL-kafka类型表数据无法成功写入(6)
数据湖Iceberg-简介(1)数据湖Iceberg-存储结构(2)数据湖Iceberg-Hive集成Iceberg(3)数据湖Iceberg-SparkSQL集成(4)数据湖Iceberg-FlinkSQL集成(5)数据湖Iceberg-FlinkSQL-kafka类型表数据无法成功写入(6)数据湖Iceberg-FlinkDataFrame集成(7)数据湖Iceberg-FlinkSQL-kafka类型表......

Flink MySQL CDC connector 使用注意事项

注意事项

相关文章

赞助商

阅读排行