我最近写了一个简单的关于dremio 集成nessie 以及dbt 玩法的说明,以下简单说明下dbt 如何配置
配置说明
对于配置实际上与以前一些介绍类似,集成nessie 的使用与其他是类似的,只是集成nessie 之后我们的数据开发模型上就有了实际的版本了(dbt 集成git 之后也会包含版本,是属于模型代码级别的),同时对于直接集成了nessie,对象存储实际上并不是必须的了,可以直接全部基于nessie
参考配置
- 参考profile 定义
核心还是关于对象存储,以及space 的配置,对于同时集成s3 以及nessie 模式的配置
dremio_nessie:
outputs:
dev:
password: dalong123
port: 9047
software_host: localhost
object_storage_source: s3 # s3 source
object_storage_path: dbt # 建议s3 bucket
dremio_space: nessie # nessie 的source
dremio_space_folder: dbtv2.biz # nessie 的folder
threads: 3
type: dremio
use_ssl: false
user: dalong
target: dev
物化以及模型都基于nessie
dremio_nessiev2:
outputs:
dev:
password: dalong123
port: 9047
software_host: localhost
object_storage_source: nessie # nesssie catalog source , 不使用s3了
object_storage_path: dbtv3 # nessie folder
dremio_space: nessie # 模型存也是使用nessie
dremio_space_folder: dbtv4.biz # nessie 的一个子folder 方便,方便分层
threads: 3
type: dremio
use_ssl: false
user: dalong
target: dev
说明
dremio +dbt + nessie 的集成模式还是很方便的,对于数据模型可以做到真正上的版本化,同时还可以统一对于s3的使用,值得试用下
参考资料
https://www.cnblogs.com/rongfengliang/p/17958669
https://www.cnblogs.com/rongfengliang/p/17903472.html
https://www.dremio.com/
https://docs.dremio.com/current/sonar/client-applications/clients/dbt/
https://github.com/dremio/dbt-dremio
https://docs.getdbt.com/docs/build/packages
https://hub.getdbt.com/
https://docs.dremio.com/current/help-support/best-practices/semantic_layer
https://www.dremio.com/blog/announcing-dremios-partnership-with-dbt-labs/
https://docs.dremio.com/current/help-support/lakehouse-arch/semantic
https://www.cnblogs.com/rongfengliang/p/17903646.html