深入理解 dbt 增量模型

时间：2023-01-01 15:12:05浏览次数：38

想要实现数据增量写入数据库，可以选择 dbt 增量模型。通过 dbt 增量模型，我们只用专注于写日增 SQL，不用去关注于如何安全的实现增量写入。

dbt 增量模型解决了什么问题

原子性写入：任何情况下，增量写入只有一个程序在写入。

假设增量程序已经上线，线上增量程序在执行的同时，开发也在本地执行增量程序。俩分程序同时执行，难以保证线上数据的正确性。

如何使用 dbt 增量写入

{{config(
    materialized='incremental',
    unique_key=['unique_key', 'time_column'],
    incremental_strategy='merge'
)}}
    
select * 
from table
where time_column >= date_add('day', -1, current_timestamp)

dbt 执行增量写入流程

delete + insert
- drop if exists tmp_table
- create tmp_table as ( incremental sql )
- delete from table where file in ( select file in tmp_table ) and file2 in ....
- insert into table select * from tmp_table
merge
- drop if exists tmp_table
- create tmp_table as ( incremental sql )
- merge into table use tmp_table

delete + insert 的增量流程是有问题的

会出现原表中的数据被删除但新的数据没进来的情况
- 例如程序A执行完 delete 操作，程序B 执行完 drop tmp_table，此时程序A insert 是失败的，于是就导致了旧数据被删除了，但新数据没插入的情况。
表是有一段时间查不到数据
- 因为 delete 和 insert 是俩步操作，在<delete, insert> 这间隔内，此时查询表内数据，是查不到数据的。

但 merge 模型下的增量写入就没有上述的问题，原因是 merge 是原子性操作，所以更新数据时候不会存在删数据和插数据的间隔，于是就能避免以上问题。

dbt 创建tmp表也是一个很妙的地方，通过 tmp 表能实现增量写入是原子操作

例如在 merge 模式下，并发执行增量程序，会出现以下执行异常：

tmp_table is exist
- 俩程序在同时在执行 create_tmp，执行慢的那个便会创建 tmp 表失败，于是便没有 merge 操作。
tmp_table is not exist
- 程序A 创建好的 tmp 表，被程序B drop 掉。于是程序A的 merge 操作失败，程序B 继续执行。

通过以上俩个异常，能保证 dbt 不管在什么情况下，只有一个增量程序在执行。

总结

以上便是 dbt 增量模型的一些细节，我们在选择 dbt 做增量时，要尽量选择 merge 模式。如果是自己想要实现增量写入，也可以参考 dbt merge 模型的流程。

标签：tmp,模型,写入,merge,增量,table,dbt
From： https://www.cnblogs.com/meicanhong/p/17018084.html

memcached Master-Worker 模型分析
memcached，相信我们搞linux后端的农民工都知道！这里简单的分析一下memcached是如何处理大量并发的连接的。如题，memcached是个单进程程序，单进程多线程的程序（linuxer可能会会......
OpenCV调用TensorFlow预训练模型
OpenCV调用TensorFlow预训练模型强大OpenCV从自OpenCV3.1版以来，dnn模块一直是opencv_contrib库的一部分，在3.3版中，它被提到了主仓库中。新版OpenCVdnn模块目前支......
将tensorflow训练好的模型移植到Android (MNIST手写数字识别)
将tensorflow训练好的模型移植到Android(MNIST手写数字识别)项目Github下载地址：https://github.com/PanJinquan/Mnist-tensorFlow-AndroidDemo，麻烦给个......
使用自己的数据集训练GoogLenet InceptionNet V1 V2 V3模型（TensorFlow）
使用自己的数据集训练GoogLenetInceptionNetV1V2V3模型（TensorFlow）新增博客《使用自己的数据集训练MobileNet、ResNet图像识别（TensorFlow）》一、前言1、网上已有......
机器学习建模神器PyCaret已开源！提升效率，几行代码轻松搞定模型
Datawhale干货编译：张峰，Datawhale成员寄语：PyCaret，是一款Python中的开源低代码（low-code）机器学习库，支持在「低代码」环境中训练和部署有监督以及无监督的机器学习模型，提升......
如何创建&美化博客（所有模型名称及效果展示）
原文链接所有模型名称及效果展示chitoseepsilon2_1haru-01haru-02hijikitororovert_normalvert_swimwearryoufukuseifukushifuku小埋玉藻前伊......
Flink CDC 2.3 发布，持续优化性能，更多连接器支持增量快照，新增 Db2 支持
作者｜阮航&徐榜江一、FlinkCDC简介FlinkCDC[1] 是基于数据库的日志CDC技术，实现了全增量一体化读取的数据集成框架。配合Flink优秀的管道能力和丰富的上下游生态，Fli......
POT超阈值模型和极值理论EVT分析|附代码数据
最近我们被客户要求撰写关于极值理论EVT的研究报告，包括一些图形和统计输出。本文依靠EVT对任何连续分布的尾部建模。尾部建模，尤其是POT建模，对于许多金融和环境应用至关重要P......
万字长文解析Scaled YOLOv4模型(YOLO变体模型)
ScaledYOLOv4模型最主要的贡献在于通过理论系统分析和实验证了模型缩放的原则，进一步拓展了CSPNet方法，并基于此设计了一个全新的Scaled-YOLOv4，Scaled-YOLOv4......
万字长文详解 YOLOv1-v5 系列模型
yolov1作者提出了一种新的目标检测方法YOLO，之前的目标检测工作都是重新利用分类器来执行检测。作者的神经网络模型是端到端的检测，一次运行即可同时得到所有目标......