首页 > 其他分享 >soda-data dremio 集成使用

soda-data dremio 集成使用

时间:2024-03-22 09:03:07浏览次数:21  
标签:core dremio yml https soda data checks

以前简单介绍过soda 数据质量工具,以下是关于dremio 集成的一个说明

环境准备

python -m venv venv
source venv/bin/activate
pip install soda-core-dremio

使用

  • soda 配置
    注意以下配置,如果是软件的,token 配置为"", 否则,可能运行会有问题
    configuration.yml
data_source dremio:
  type: dremio
  driver: /Library/Dremio/ODBC/lib/libarrow-flight-sql-odbc.dylib
  host: localhost
  username: admin
  password: admin123
  schema: s3v2
  token: ""
  • 测试链接配置
soda test-connection -d dremio -c configuration.yml
  • sodacl 定义
    checks.yml
checks for dbt.dalongdemov2:
  - duplicate_count(name) = 0:
      name: No duplicate names

注意: 其中的多for 后边部分就是dremio 的datasets 地址

  • 执行scan
soda scan -d dremio -c configuration.yml checks.yml -srf app.json

效果

json结果

说明

基于soda 进行数据质量的处理还是很方便强大的,包含了很强大的cl 语言,可以方便的数据质量处理,和dremio 集成起来也是一个很不错的

参考资料

https://github.com/sodadata/soda-core
https://docs.soda.io/soda/quick-start-sip.html
https://docs.soda.io/soda/connect-dremio.html
https://docs.soda.io/soda-cl/metrics-and-checks.html
https://github.com/rongfengliang/dremio_cluster_docker-compose

标签:core,dremio,yml,https,soda,data,checks
From: https://www.cnblogs.com/rongfengliang/p/18042889

相关文章

  • Amazon Aurora Limitless Database :数据库管理的全新境界
    在当今数亿用户、PB级数据和数百万交易的业务环境中,数据库管理面临着巨大的挑战。传统数据库扩展的繁琐性和耗时性使得许多组织需要花费数月甚至数年的时间来构建自定义软件以满足其极端的工在当今数亿用户、PB级数据和数百万交易的业务环境中,数据库管理面临着巨大的挑战。 ......
  • Debezium vs OGG vs Tapdata:如何实时同步 Oracle 数据到 Kafka 消息队列?
    随着信息时代的蓬勃发展,企业对实时数据处理的需求逐渐成为推动业务创新和发展的重要驱动力。在这个快速变化的环境中,许多企业选择将Oracle数据库同步到Kafka,以满足日益增长的实时数据处理需求。本文将深入探讨这一趋势的背后原因,并通过一个真实的客户案例来强调实时性在业务场......
  • 面向报文的UDP(User Datagram Protocol,用户数据报协议)的一个重要特点
    与TCP(TransmissionControlProtocol,传输控制协议)不同,UDP是一种无连接的协议,它不会为数据建立和维护一个持续的连接。因此,UDP的数据传输方式是面向报文的,也就是说,它会把应用层交给它的报文作为一个整体发送出去,不会进行分割或合并。具体来说,当应用层数据交给UDP后,UDP会为其......
  • requests.post传的data如果是直接使用python dict封装,有些服务端接收不了这种数据类型
    平时在自己的php项目里,使用dict方式组装data,然后requests.post,一点问题都没有。但是调了后端一个java的微服务接口,结果就一直报错422: 最后问了一下开发,得到提示“python好像还有个毛病,python的json对象转字符串的时候,转出来的字符串不是标准json字符串,还要做个字符串处理,变成......
  • 解决System.Data.SQLite 32和64位版本兼容问题
    SQLite数据库小巧轻量、免费开源,在中小型项目或移动端项目经常使用,在Windows桌面端需要使用System.Data.SQLite.dll文件,版本特别多,可仔细阅读官方文档了解它们的区别。本文介绍如何兼容32位和64位的方法。类库下载在官网下载非混合模式程序集,非混合模式文件大小只有382kb,而且混......
  • 使用spring data jpa开启高性能批量insert/update
    1、jdbcurl加上参数&rewriteBatchedStatements=true2、yaml/properties加上配置spring.jpa.properties.hibernate.jdbc.batch_size:2000spring.jpa.properties.hibernate.jdbc.batch_versioned_data:truespring.jpa.properties.hibernate.order_inserts:truespring.jpa......
  • Step by Step Data Replication Using Oracle GoldenGate
    1、Quickstarts2、ConfigureDeployments3、ManageDeploymentsfromtheServiceManager 4、ConfigureDataReplicationProcessesfromtheAdministrationService 5、ConfigurePathstoTransportTraiData 6、MonitorPathsandTrailsfromtheReceiver......
  • ESP32上传失败,ESP32: No serial data received,Failed uploading: uploading error: ex
    ESP32:Noserialdatareceived解决方案给ESP32烧录的时候,报错Afatalerroroccurred:FailedtoconnecttoESP32:Noserialdatareceived.Fortroubleshootingstepsvisit:https://docs.espressif.com/projects/esptool/en/latest/troubleshooting.htmlFa......
  • dremio 自定义登陆以及简单sso
    一个简单的dremio集成自己外部登陆的,处理方法是通过nginx进行proxy同时开发自己的login服务,此服务调用的dremiologinapi对于自己的登陆页面调用自己开发的loginapi,然后将登陆信息写入到localstorage中,之后进行一个dremionginx访问地址的重定向因为dremio默认web登......
  • 350_{"code":401,"msg":"认证失败,无法访问系统资源","data":null}
    若依框架部署Linux访问报错,401认证失败,无法访问系统资源_认证失败,无法访问系统资源_冰糖码奇朵的博客-CSDN博客报错信息链接访问nginx配置解决......