首页 > 其他分享 >入门指南 | Datavines 安装部署篇

入门指南 | Datavines 安装部署篇

时间:2024-09-07 10:46:45浏览次数:10  
标签:指南 入门 数据源 yarn 开源 Datavines 数据 datavines

摘要:本文主要介绍基于源码部署 Datavines 和执行检查作业,内容主要分为以下几个部分:

  • 平台介绍
  • 快速部署
  • 运行数据质量检查作业

Datavines 的目标是成为更好的数据可观测性领域的开源项目,为更多的用户去解决元数据管理和数据质量管理中遇到的问题。在此我们真诚欢迎更多的贡献者参与到社区建设中来,和我们一起成长,携手共建更好的社区。

https://github.com/datavane/datavines
https://github.com/datavane/datavines/issues
https://github.com/datavane/datavines/pulls


平台介绍

Datavines 是一站式开源数据可观测性平台,提供元数据管理、数据概览报告、数据质量管理,数据分布查询、数据趋势洞察等核心能力,致力于帮助用户全面地了解和掌管数据,让您做到心中有数.

快速部署

环境准备

在安装 Datavines 之前请确保你的服务器上已经安装下面软件

  • Git,确保 git clone的顺利执行
  • JDK,确保 jdk >= 8
  • Maven, 确保项目的顺利打包(当然你也可以在本地打包以后上传至服务器)
  • MySQL, 确保版本 >=5.7

下载代码

git clone https://github.com/datavane/datavines.git
cd datavines

数据库准备

Datavines 的元数据是存储在关系型数据库中,目前支持 MySQL ,下面以 MySQL 为例说明安装步骤:

  • 创建数据库 datavines
  • 执行 script/sql/datavines-mysql.sql 脚本进行数据库的初始化

项目构建

打包并解压

mvn clean package -Prelease
cd datavines-dist/target
tar -zxvf datavines-1.0.0-SNAPSHOT-bin.tar.gz

解压完成以后进入目录

cd datavines-1.0.0-SNAPSHOT-bin

编辑配置信息

cd conf
vi application.yaml

修改数据库信息

spring:
 datasource:
   driver-class-name: com.mysql.cj.jdbc.Driver
   url: jdbc:mysql://127.0.0.1:3306/datavines?useUnicode=true&characterEncoding=UTF-8
   username: root
   password: 123456

如果你是使用 Spark 做为执行引擎,并且是提交到 yarn 上面去执行的,那么需要在 common.properties 中配置 yarn 相关的信息

  • standalone 模式
yarn.mode=standalone
yarn.application.status.address=http://%s:%s/ws/v1/cluster/apps/%s #第一个%s需要被替换成yarn的ip地址
yarn.resource.manager.http.address.port=8088
  • ha 模式
yarn.mode=ha
yarn.application.status.address=http://%s:%s/ws/v1/cluster/apps/%s
yarn.resource.manager.http.address.port=8088
yarn.resource.manager.ha.ids=192.168.0.1,192.168.0.2

启动服务

cd bin
sh datavines-daemon.sh start mysql

查看日志,如果日志里面没有报错信息,并且能看到
[INFO] 2022-04-10 12:29:05.447 io.datavines.server.DatavinesServer:[61] - Started DatavinesServer in 3.97 seconds (JVM running for 4.69) 的时候,证明服务已经成功启动。

访问前端页面

在浏览器输入: 服务器IP:5600 ,就会跳转至登录界面,输入账号密码 admin/123456

运行数据质量检查作业

创建数据源

进入首页后,点击右上角 创建数据源 按钮,输入数据源的名称,然后选择数据源类型。以 MySQL 为例,输入 MySQL 的连接信息,点击 测试连接 按钮。如果成功,请单击 保存

进入数据源

点击并进入数据源,找到 作业管理 页面

创建检查作业

  • 点击 创建规则作业 按钮,选择 数据质量作业

  • 进入规则的配置页面

  • 进行规则配置

    • 选择 枚举值[不在]检查 规则
    • 依次选择数据库、表和列
    • 输入枚举数组 [0,1]
  • 进行期望值配置

    • 如果没有期望值则选择
  • 进行校验配置

    • 选择 实际值 检查公式、 > 比较符并输入阈值 10
    • 这样就构成 【实际值 > 10】 公式 ,公式成立时表示检查结果为成功,否则是失败。
  • 进行错误数据配置

    • 选择保存在源数据源中,填写已创建好的数据库
  • 完成配置后点击 保存并运行 来执行检查作业。

查看规则作业的信息

作业列表 找到刚刚创建并执行的检查作业。

点击 执行记录 页面, 你可以看到执行历史列表。

点击 日志 按钮,你可以看到规则执行的日志信息。

点击 结果 按钮,你可以看到规则执行的检查结果。

点击 错误数据 按钮,你可以看到规则执行的错误数据。

结束语

本文详细介绍了Datavines平台的部署安装到运行的整个过程,每个环节图文并茂,相信很多小伙伴都跃跃欲试了,动起来吧,更多精彩等着你来挖掘。

关于Datavane

Datavane 是一个专注于大数据领域的开源组织(社区),由一群大数据领域优秀的开源项目作者共同创建,旨在帮助开源项目作者更好的建设项目、为大众提供高质量的开源软件,宗旨是:只为做一个好软件。目前已经聚集了一批优质的开源项目,涉及到数据集成、大数据组件管理、数据质量等。

在 Datavane 社区中,所有的项目都是开源开放的,代码质量和架构设计优质的潜力项目。社区保持开放中立、协作创造、坚持精品,鼓励所有的开发者、用户和贡献者积极参与我们的社区、共同合作,创新创造,建设一个更加强大的开源社区。

官 网: http://www.datavane.org/
Github : https://github.com/datavane

标签:指南,入门,数据源,yarn,开源,Datavines,数据,datavines
From: https://www.cnblogs.com/simple-focus/p/18401422

相关文章

  • 企业邮箱监控设置指南:企业邮箱怎么设置邮箱监控(企业邮箱外发邮件如何监控)?
    邮件监控成为了一项重要的信息安全措施。通过合理的邮箱监控设置,企业不仅能有效防止信息泄露,还能提升工作效率和管理透明度。本文将为您详细介绍企业邮箱如何设置邮箱监控,特别是针对外发邮件的监控方法。一、选择合适的邮件监控工具首先,企业需要根据自身需求和预算选择合......
  • Unity2D 快速入门 赛车小游戏教程 项目式教学
    Unity2D快速入门赛车小游戏教程项目式教学https://www.bilibili.com/video/BV1a3H9eDEpo/?share_source=copy_web&vd_source=f7debfaee600750d60e895f62aeac43f本教程涉及到Unity常用组件、常用方法等核心知识点,掌握本教程相关知识后你基本就算入门Unity了1.需求分析玩......
  • 【计算机毕设选题】2025届计算机专业毕设全新推荐选题指南
    文章目录前言一、2025计算机毕设推荐选题(1)javaWeb以及管理系统类(2)小程序以及安卓系统类(3)Python系统类二、项目结构示例(1)项目代码(2)运行截图三、项目部分代码设计四、数据库代码设计参考五、参考论文示例六、源码获取前言2025届的毕业季已经来到,相信各个高校的毕设......
  • Maven使用指南的笔记
    文档索引Mavenin5Minutes篇幅很短,快速上手,不求甚解。执行如下命令,创建项目的基础配置。mvnarchetype:generate-DgroupId=com.mycompany.app-DartifactId=my-app-DarchetypeArtifactId=maven-archetype-quickstart-DarchetypeVersion=1.5-DinteractiveMode=false......
  • Kotlin快速入门,全是干货没有废话
    Kotlin基础数据类型在kotlin中,变量使用var关键字声明,常量使用val关键字声明。变量声明可以通过变量名:数据类型的形式显式声明,也可以通过自动推导的方式声明。//通过【变量名:数据类型】的形式声明变量varname:String="Soria"valage:Int=18//可以不显式声明......
  • Oracle 19c数据库:Windows详细安装与配置指南
    Oracle19c的安装和配置是一个相对复杂但系统化的过程,本文演示如何在Windows系统下安装Oracle数据库,安装足够的磁盘空间(一般需要5~6个G,所以选剩余空间大的盘)。以下是一个详细的步骤指南,包括准备工作、安装过程、配置监听器和数据库测试等关键步骤:一、下载Oracle19c安装包访问Or......
  • C++入门基础(类和对象)
    7.类和对象1.面向对象和面向过程的区别面向对象:是将事务抽象成类和对象,以对象为中心,通过对象的交互实现程序的功能,可维护性强面向过程:是将复杂问题一步步拆分,通过依次执行来解决问题,可维护性比较弱2.类大小的计算1.内存对齐考虑内存对齐的默认大小vs默认是8字......
  • C++入门基础
    6.C++入门基础1.函数重载1.什么是函数重载函数重载是实现C++多态的一个重要技术,是在同一作用域内相同函数名因为参数的类型不同或者个数不同或者都不同构成重载2.C++是如何支持函数重载的1.命名改变根据对应的参数类名改成比如voidfoo(int)voidfoo(double)_fo......
  • AI产品经理:掌握核心技能:成为AI产品经理的完全指南(附赠福利)
    1.AI产品经理是什么回答这个问题前我们首先得理清楚什么是AI产品经理,它和传统的互联网产品经理有什么区别。1.1AI产品经理职责主要职责一方面是规划如何将成熟的AI技术应用在各个领域不同场景中,提升原有场景的效率或效果等;另一方面是基于业务方的需求如何用现有的AI技......
  • AI产品经理:零经验转行AI产品经理:从入门到精通的全面指南
    本篇文章来自于一个YouTube视频的内容,对于如何成为AI产品是一个很好的入门贴,这篇文章也是通过AI协助编辑过来的。通过这次编辑,也初步尝试了各大Chatbot的能力,总体体验,拥有长上下文能力的kimibot的体验最好,能将4000+字的英文完整翻译并进行初步的排版。但是通过这个......