以下主要是一个简单的体验
环境初始化
以前也简单说明dlt实际上就是一个python包,实际使用推荐结合python 的venv 安装
- 安装
python -m venv venv
pip install -r requirements.txt
requirements.txt 文件( 主要是一些依赖)
pandas
streamlit
dlt[duckdb]
- 简单集成
import dlt
data = [{"id": 1, "name": "Alice"}, {"id": 2, "name": "Bob"}]
pipeline = dlt.pipeline(
pipeline_name="quick_start", destination="duckdb", dataset_name="mydata"
)
load_info = pipeline.run(data, table_name="users")
print(load_info)
运行
- 命令
python app.py
会生成一个duckdb 的文件
- 可视化查询效果
dlt pipeline quick_start show
可以看到dlt 会包含自己的状态id
dlt 目的包含的一些表
说明
dlt 也提供了cli 方便初始化项目,以上是直接使用了python 代码,以上是一个简单的试用,dlt 目前已经提供了不少source 以及destination,同时也包含了
自己的状态处理,值得详细看看
参考资料
https://dlthub.com/docs/getting-started
https://dlthub.com/
https://github.com/dlt-hub/dlt
https://dlthub.com/docs/general-usage/state
https://dlthub.com/docs/dlt-ecosystem/staging