简介

在实时数据开发过程中，大家经常会用 Flink SQL 或者 Flink DataStream API 来做数据加工。通常情况下选用2者都能加工出想要的数据，但是总会有 Flink SQL 覆盖不了的问题，但 SQL 的易用性又难以让人释怀。所以有些场景在使用 FLink SQL 开始就与需要额外注意，下面就介绍一种多表关联时存在部分列更新（partial Update）场景，在 DataStream API 和 Flink SQL 开发时都容易忽视的情况而导致的问题。为了简化问题描述，采用了Flink SQL 来阐述此类问题。

场景介绍

多表关联时表 A 关联表 B, 表 A 具有pk1, field1, field2, field3字段，表 B 具有 pk2, field4, field5, field6 字段，表 A 通过 pk1 关联表B pk2。使用 Flink SQL 会如下实现：

CREATE TABLE jdq_source(
pk1 INT,
field1 STIRNG,
field2 STIRNG,
field3 STIRNG,
PRIMARY KEY(pk1) NOT ENFORCED
) WITH(...);

CREATE TABLE sr_sink(
pk1 INT,
field1 STRING,
field2 STRING,
field3 STRING,
field4 STRING,
field5 STRING,
field6 STRING,
PRIMARY KEY(pk2) NOT ENFORCED
) WITH (...);

INSERT INTO C
SELECT A.pk1,A.field1,A.field2,A.field3,B.pk2,B.field4,B.field5,B.field6 FROM jdq_source A
INNER JOIN sr_sink B
ON A.pk1 = B.pk2;

上述实例中有明显特征：使用了Join 关联, 且需要注意的是写入的数据库 sink 是 StarRocks。StarRocks 存在如下特性：当表是主键表时是不支持部分列更新（ Partial Update）的，实际上大部分时候大家都用的是主键表。

然后在一个SQL查询数据的接口就遇到了如下问题：每次从接口查询返回的结果都不稳定，同样的查询条件不同时机返回的结果不一样。SQL查询语句如下：

select C.field1,C.field2,C.field3
FROM C group by field1,field2,field3;

为什么SQL查询的结果会不一致呢？起初排查原因发现 group by 返回结果有多条，而在SQL 中也没有使用 order by 对数据进行排序，所以导致了结果不稳定。后又排查为什么会出现多条结果呢？于是怀疑 field1, field2, field3 有不符合预期的数据。如：

20240530, 2, 3
20240530, 2, null
20240531, 2, 4

其中第2条是多余的，不应该出现。结果发现可能是如下原因导致的：这3个字段 filed1, field2, filed3 在StarRocks数据库中会一直在变化，不停的写入新值。导致 SQL 查询时可以查到 field3 为 null 的数据。
为什么field3为不断变化呢？究其原因是：StarRocks 主键表不支持部分列更新（Partial Update）。当field3 为null时，同样会被写入 StarRocks。我们在通过JDQ读取表A field1, field2, field3 数据给表C写入数据时，当JDQ 消息队列中表A的记录存在乱序场景且field3 字段可能为null时，最终写入StarRocks的field3 字段会出现时而为null，时而不为null。所以SQL查询接口中 group by的结果会出现不稳定。

总结

为什么在开发的时候当时没有发现 StarRocks 主键表这个问题呢？原因：1. 大家所关注的部分列更新，多数是关注insert into table_C(field1, field2, field3) 中不包含的字段field4,field5...等被更新为null，而当前场景是会把 field3 为null的值也写入SR数据库中，这不是我们期望的结果。2.表A作为主表，通常不会出现开始field3有值后来又没有值（null）的场景。出现这个现象大概率是因为上游JDQ消息队列中的数据乱序了，导致field3 为null的后出现了。而这种问题又比较难发现。
什么情况下会出现此类问题呢？写入的数据库不支持部分列更新场景时会出现。如StarRocks, Doris。因为MySQL, ES，ClickHouse的部分表引擎支持部分列更新，所以在MySQL, ES，ClickHouse中不会出现。
同理在 DataStream API 中如果表 A,表 B 关联后的数据直接写入StarRocks 的话，也会出现此类问题。
以上这个问题在 Flink SQL 中无法解决，在 Flink DataStream API 中可以模拟部分列更新来避免此类问题。具体方法：在DatStream 任务中增加一个MapState, 用来在新数据到来时从MapState拿出缓存的数据，并和新到来的数据进行合并，来实现部分列更新功能，最后再写入 StarRocks。
虽然问题不是Flink SQL导致的，但是上面的问题可以通过Flink DataStream API来规避。

标签：StarRocks,field2,field3,Flink,解决不了,SQL,null
From： https://www.cnblogs.com/Jcloud/p/18292722

生产实习--启明星辰第四天（Web网络安全基础知识，sql注入，xss攻击，csrf与ssrf，xxe攻击，未授
web安全的基础知识基本定义Web安全，也称为网络安全或在线安全，是指保护网站、网页和Web服务免受各种威胁和攻击的技术和实践。这些威胁可能来自恶意软件、网络攻击、数据泄露、身份盗窃、服务中断等。Web安全的目标是确保Web应用程序和用户数据的安全、完整和可用性。一般流程......
IDEA无法识别sql进行补全
使用的是2023版idea，遇到sql语句无法被识别的问题，不会出现代码补全尝试多次后找到解决办法。将图中的None进行修改统一改为Mysql保存以后问题解决。（前提是在idea已经成功连接数据库）......
SQLAlchemy实现多条SQL语句参数化查询同时返回结果
SQLAlchemy实现多条SQL语句参数化查询，每条SQL所使用的参数不一定相同，每条查询的结果以字典列表形式返回，多条语句的查询结果合并以列表形式返回。代码实现如下：defconnect_mysql(username,password,host,port,database,params,statements):connection_string=f'my......
jvm+mysql索引优化+sql优化
一、jvm---线程栈每个线程都会从内存栈分配一块区域，这个区域里放了此线程变量（按方法，一个方法对应一块栈帧内存区域）。Math.class字节码文件不是给人看的，idea中找到Math类，右键找到terminal，输入javap，底下-c对代码进行反汇编命令：javap-cMath.class>math.txt此时，Math类根......
面试官：MySQL死锁是什么，如何解决？
MySQL死锁概述定义：多个操作相互等待对方释放资源，导致无法继续执行的情况。场景：通常发生在多个事务同时试图锁定对方已锁定的资源时。MySQL锁的分类粒度分类：表级锁：锁定整个表，简单但并发能力低。行级锁：锁定特定行，开销大，可能死锁，但并发度高。页级锁：锁定数据库页，介于表级和......
MySQL 源码｜LEX 结构体
LEX结构体源码位置：（版本=MySQL8.0.37）sql/sql_lex.hsql/sql_lex.ccsql/sql_class.ccrouter/src/routing/src/sql_lexer.ccLEX对象当前有以下功能：包含了一些SQL命令的通用属性，例如：sql_command，数据变更语句语法中是否存在IGNORE，以及表列表query_tables包含了一些......
Mysql更新数据库密码
首先登录数据库mysql-uroot-p1234qwer查找数据库用户表所有用户信息SELECT`Host`,`User`,authentication_string,password_last_changedFROMmysql.`user`;更新密码UPDATEmysql.`user`SETauthentication_string=PASSWORD('1234qwert')WHEREuser='root'AND......
MYSQL——mysql检索不包含字母U的数据
2024/07/091.NOTLIKE2.ISNOT、<>、!=3.NOTIN如题，正确答案如下：SELECT*FROMyour_table_nameWHEREyour_column_nameNOTLIKE'%U%';今天写类似检索语句时，脑子突然一懵，写成了ISNOT'%UD%'，如下：SELECT*FROMyour_table_nameWHEREyour_column_nameISNOT......
Mysql主从复制
一、主从复制原理主从复制的相关程序：日志二进制日志中继日志（relaylog）线程主服务器：mysqldump线程（传输二进制日志给从服务器）从服务器：IO线程（接收二进制日志，写入中继日志），sql线程（读取中继日志，写入数据库，同步操作达到数据同步）点击查看代码主从复制原理：1.主节点负责......
mysql集群高可用架构MHA
一、MHA概述1.为什么要用MHAMaster的单点故障问题2.什么是MHAMHA（MasterHighAvailability）是一套优秀的MySQL高可用环境下故障切换和主从复制的软件。MHA的出现就是解决MySQL单点的问题。MySQL故障切换过程中，MHA能做到0-30秒内自动完成故障切换操作。MHA能在故障切换的过程......

什么是 Flink SQL 解决不了的问题？

简介

场景介绍

总结

相关文章

赞助商

阅读排行