首页 > 其他分享 >类似git 的数据版本管理工具

类似git 的数据版本管理工具

时间:2023-01-06 17:34:52浏览次数:139  
标签:基于 git 版本 玩法 管理工具 github https com

git 是一个很不错的svc 系统,当前基于git 的玩法是越来越多了,比如gitops,基于git 的数据管理也是包含了不少的开源实现

基于git 玩法的好处

  • 版本化,可以实现特定版本的只读活着灵活管理,有些系统是支持不可变模式的,可以防止数据被随意修改
  • 可管理化,可以实现数据即代码,数据不在是杂碎的东西了
  • 利用git 模式现实自动化,主要是结合类似devops 的玩法,可以复用基于git devops 的一些周边工具
  • 更好的数据共享以及使用,同时可以更好的实现数据管理知识的共享(与git 的玩法是类似的)

一些开源实现

  • dvc 
    偏向于机器学习
  • nessie 
    nessie 也是基于git的,但是它更偏向于catalog
  • dolt 
    实现了不少类似git 的能力,可以方便的进行数据管理,包含了cloud 以及本地托管模式
  • ArtiVC 
    部分支持git 能力,好处是简单,支持多种数据存储,同时如果集成了rclone,更好支持更多的数据存储
  • dremio 
    dremio 支持的部分也是基于了nessie,当然属于少量开源
  • dbt 
    我们可以利用git 模式进行数据模型管理
  • cubejs 
    实际上这个是cube.js cloud 在进行bi api 处理上的支持能力,也基于了git 进行数据模型管理
  • lakefs 
    提供了类似git 的数据管理,包含分支,存储基于对象存储,需要元数据,能力还是不错的

说明

基于git 模式的数据版本管理工具的实现是越来越多了,加上当前的lakehouse 需求,是一个很不错的玩法,目前已经有不少的数据分析项目开始集成git 玩法了
比如dremio 就集成了nessie 支持数据的git 化管理,looker 等一些云化的bi 以及数据女分析平台就支持基于git 模式的建模(dbt 也提供了类似的能力,只是偏向于
T,实际上目前官方也在支持其他的,毕竟社区支持其他模式的需求越来越多了),以上只是一些项目的简单整理,实际上基于git 的玩法还是很多,可以变通下

参考资料

https://docs.lakefs.io/reference/object-model.html
https://github.com/iterative/dvc
https://dagshub.com/blog/data-version-control-tools/
https://lakefs.io/data-versioning/
https://github.com/projectnessie/nessie
https://projectnessie.org/
https://dvc.org/
https://github.com/dolthub/dolt
https://github.com/dremio/dremio-oss
https://artivc.io/
https://github.com/InfuseAI/ArtiVC
https://www.getdbt.com/
https://github.com/dbt-labs/dbt-core

标签:基于,git,版本,玩法,管理工具,github,https,com
From: https://www.cnblogs.com/rongfengliang/p/17031148.html

相关文章

  • Git管理版本详细教程
    一、远程仓库与本地仓库关联的逻辑关系Remote: 远程仓库,即你在 Github 或者 Gitee 等平台上创建的项目仓库;Repository: 本地仓库,你可以认为就是我们拉取项目后生......
  • node版本和用的包不兼容问题,头疼
    经常遇到node版本和包不兼容的问题,在茫茫大海中学习的时候发现一个nvm,可以随时切换node版本,简直不要太开心,附上流程环境windows首先:下载一个nvm包https://github.com/cor......
  • GitHub 车牌检测识别项目调研
    一,EasyOCR1.1,仓库介绍EasyOCR是一个用于从图像中提取文本的python库,它是一种通用的OCR,既可以读取自然场景文本,也可以读取文档中的密集文本。目前支持80多种语言和......
  • 版本冲突
    当两个不同版本的jar包,包含同一部分的时候,就会冲突解决,排除一个<exclusions><exclusion><groupId>org.projectlomb......
  • Docker 版本升级
    Docker版本升级1、查看系统要求Docker要求CentOS系统的内核版本高于3.10,查看CentOS的内核版本。uname-a2、删除旧版本yumremovedockerdocker-commondock......
  • Git学习
    Git介绍版本控制:Git是目前世界上最先进的分布式版本控制系统,常见的还有集中式版本控制(SVN)工作流程/原理:Workspace:工作区Index/Stage:暂存区Repository:仓库区(或本......
  • linux服务器做git仓库时,没有修改内容却提示有文件变动的解决方法
    老服务器迁移项目到新服务器后,之前的git拉取gitee仓库的功能是使用php脚本编写的,但是迁移后,一直会提示有文件被修改了,可是仔细对比了内容,包括换行符,都是没有问题的,之后......
  • kubernetes1.25版本新版本启动时报错
    前言:kubernetes的部署从1.24版本开始后,弃用docker-shim,也就是说部署1.24版本后的集群不能使用docker-ce了。比较清晰的解决方案有两个,一是使用containerd,这个是一个新的......
  • https://github.com/ophub/amlogic-s9xxx-armbian/ 电视盒子
    ophub/amlogic-s9xxx-armbian:ArmbianforAmlogicandRockchip.Supporta311d,s922x,s905x3,s905x2,s912,s905d,s905x,s905w,s905,rk3588,rk3568,rk3328,e......
  • gitolite安装及配置教程centos7
     1. 安装依赖包yuminstallcurl-develexpat-develgettext-developenssl-develzlib-develperl-devel-y 2.安装Gityum-yinstallgit 3.创建git用户useraddgitp......