a)DataStream 上的关系查询
下表比较了传统的关系代数和流处理与输入数据、执行和输出结果的关系。
关系代数 / SQL | 流处理 |
---|---|
关系(或表)是有界(多)元组集合。 | 流是一个无限元组序列。 |
对批数据(例如关系数据库中的表)执行的查询可以访问完整的输入数据。 | 流式查询在启动时不能访问所有数据,必须“等待”数据流入。 |
批处理查询在产生固定大小的结果后终止。 | 流查询不断地根据接收到的记录更新其结果,始终不会结束。 |
尽管存在这些差异,但是使用关系查询和 SQL 处理流并不是不可能的,高级关系数据库系统提供了一个称为 物化视图(Materialized Views) 的特性。
物化视图被定义为一条 SQL 查询,就像常规的虚拟视图一样;与虚拟视图相反,物化视图缓存查询的结果,因此在访问视图时不需要对查询进行计算,缓存的一个常见难题是防止缓存为过期的结果提供服务;当其定义查询的基表被修改时,物化视图将过期,即时视图维护(Eager View Maintenance) 是一种一旦更新了物化视图的基表就立即更新视图的技术。
考虑以下问题,那么即时视图维护和流上的SQL查询之间的联系就会变得显而易见:
- 数据库表是
INSERT
、UPDATE
和DELETE
DML 语句的 stream 的结果,通常称为 changelog stream 。 - 物化视图被定义为一条 SQL 查询,为了更新视图,查询不断地处理视图的基本关系的 changelog 流。
- 物化视图是流式 SQL 查询的结果。