首页 > 其他分享 >2022,数据科学与数据治理项目全纪录

2022,数据科学与数据治理项目全纪录

时间:2023-06-02 20:01:30浏览次数:51  
标签:全纪录 开源 治理 2022 Atlas Datahub 数据

2022,数据科学与数据治理项目全纪录_大数据


大家好,我是独孤风。

2022年已过去一半多的时间了。这半年多,我们重点关注了LinkedIn Datahub、Atlas等元数据管理工具,了解了他们在数据治理领域的作用。

也关注了Apache Griffin等数据质量工具的使用。

但是,在数据工程领域这只是冰山一角,近期lakeFS高级工程师Einat Orr发布一份2022年的数据工程汇总图,对于数据工程领域的优秀项目进行了整理汇总。

此高清大图我已经同步到学习群中,需要此高清大图的同学可以联系我获取。

下面我们来看一下,大数据和数据治理领域有哪些值得关注的优质项目。


1、数据采集软件

这一部分主要是数据采集的实时流技术和软件服务。

值得关注的是Airbyte, Airbyte成立于 2020 年,是一个开源项目。

附上地址: https://github.com/airbytehq/airbyte

Airbyte 是一个开源 EL(T) 平台,可帮助您在数据仓库、数据湖和数据库中复制数据。

2022,数据科学与数据治理项目全纪录_机器学习_02

2、数据采集框架

数据采集领域越来越向高扩展性的实时流计算演变。

毫无疑问,除了商用的软件以外,Spark、Flink、Kafka、Pulsar等开源技术将继续大发异彩。

2022,数据科学与数据治理项目全纪录_大数据_03

3、对象存储

对象存储不是什么新技术了,但是从来都没有被替代掉。为什么?在这个大数据发展迅速地时代,数据已经不单单是简单的文本数据了,每天有大量的图片,视频数据产生,在短视频火爆的今天,这个数量还在增加。有数据表明,当今世界产生的数据,有80%是非关系型的。那么,对于图片,视频等数据的分析可以说是大数据与人工智能的未来发展方向之一。

这一领域老牌的Ceph,SwiftStack确实有一定的市场份额,但更应该关注新兴Minio。之前我们也做过相应的实践。

大数据流动历史文章: Github 29K Star的开源对象存储方案——Minio入门宝典

2022,数据科学与数据治理项目全纪录_机器学习_04

4、数据湖

去年的时候,数据湖的概念越来越多的被提及。

很多的公司想通过数据湖的方式,或者湖仓一体的概念,来简化数据工程的复杂程度。

Hudi、Iceberg也成为了很多公司的选择。

目前来看Databricks的架构依然是更高性能的,目前来看他们还没有开源出更多的东西。

2022,数据科学与数据治理项目全纪录_数据_05

5、以数据为中心的机器学习

从现在看,很多东西已经非常的清晰了。

端到端 MLOps 工具,以数据为中心的机器学习方法的工具,机器学习的 可观察性和监控。

2022年deepchecks开源。

https://github.com/deepchecks/deepchecks

deepchecks用于验证 ML 模型和数据的测试套件。Deepchecks 是一个 Python 包,用于以最小的努力全面验证您的机器学习模型和数据。

2022,数据科学与数据治理项目全纪录_数据_06

6、数据治理

数据治理的道路,任重道远。

目前我们关注的重点还是Atlas和Datahub。

Atlas是老牌的Hadoop生态中的一员,对于数据血缘的支持还是足够的。

通过二次开发,Atlas可以满足大部分公司的业务需求。

而Datahub作为一颗冉冉升起的新星,更是值得持续的关注。

数据治理之元数据管理的利器——Atlas入门宝典

一站式元数据治理平台——Datahub入门宝典

万字保姆级长文——Linkedin元数据管理平台Datahub离线安装指南

2022,数据科学与数据治理项目全纪录_大数据_07

2022 年还有哪些其他项目正在兴起?哪些工具正在成为行业事实上的标准?

欢迎加入学习群与我们一起讨论!

大数据与数据治理相关资料领取 请关注大数据流动,后台回复 大数据2022

加入学习群 请关注大数据流动,后台回复 加群

数据治理实践类知识星球 数据治理工具箱 也已成立 ,需要加入请在后台 回复 “数据治理工具箱”



标签:全纪录,开源,治理,2022,Atlas,Datahub,数据
From: https://blog.51cto.com/u_14500431/6404776

相关文章

  • 时序列数据库选型
    时序列数据库武斗大会之什么是TSDB由于工作上的关系,最近看了一些关于时序列数据库的东西,当然,我所看的也都是以开源方案为主。趁着这股热劲还没退,希望能整理一些资料出来。如果正好你也有这方面的需求,那么希望这一系列的介绍能够帮助到你。1.什么是时序列数据库(Timeseriesdatabas......
  • 实时数据治理—当Atlas遇见Flink
    Atlas是Hadoop的数据治理和元数据框架。Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效,高效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。ApacheAtlas为组织提供了开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数......
  • 一站式元数据治理平台——Datahub入门宝典
    随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程。作为新一代的元数据管理平台,Datahub在近一年的时间里发展迅猛,大有取代老牌元数据管理工具Atlas之势。国内Datahub的资料非常少,大部分公司想使用Datahub作为自己的元数据管理平台,但可参考的资料太少。所以整......
  • SQLite数据库查看工具
    SQLite的官方网站[url]http://www.sqlite.org/[/url]SQLite的官方网址列了很多查看SQLite数据库的软件:[url]http://www.sqlite.org/cvstrac/wiki?p=ManagementTools[/url]这里推荐我使用过的几个,当然是免费的才行.1.SQLiteDatabaseBrowser[im......
  • 学习笔记——软件、软件分类、软件测试、数据的形式与数制(进制之间的转化)
    2023-06-02一、软件1、软件包含的内容:程序、数据和文档①程序:一遍是由编程语言编写的,例如:C、C++、java、Python等。②数据:一般使用文件或者数据库来存储数据③文档:包括安装说明书、帮助文档、许可协议等。 2、软件分类2.1安装功能用途分类(1)系统软件例如:操作系统:Unix、W......
  • 数据库逻辑结构设计
    目录ER图向关系模型的转换数据模型的优化设计用户子模式ER图向关系模型的转换如何将实体型和实体间的联系转换为关系模式如何确定关系模式的属性和码一个实体型转换为一个关系模式m:n转换为一个关系模式三个或三个以上实体间的一个多元联系可以转换为一个关系模式具有相......
  • opencv 读取图片 图片数据处理 笔记
    1.python中各类图片读取工具的比较参考Python各类图像库的图片读写方式总结可知,opencv的性能表现最好。opencvyyds相关文章收藏:Python-OpenCV:cv2.imread(),cv2.imshow(),cv2.imwrite()Python各类图像库的图片读写方式总结2.opencv常用函数2.1读取图片cv2.imread(filename,fla......
  • lucene底层数据结构——FST,针对field使用列存储,delta encode压缩doc ids数组,LZ4压缩算
    参考:http://www.slideshare.net/lucenerevolution/what-is-inaluceneagrandfinalhttp://www.slideshare.net/jpountz/how-does-lucene-store-your-data摘录一些重要的:看一下Lucene的倒排索引是怎么构成的。我们来看一个实际的例子,假设有如下的数据: docid年龄性别118女220女318男 ......
  • lucene底层数据结构——底层filter bitset原理,时间序列数据压缩将同一时间数据压缩为
    如何联合索引查询?所以给定查询过滤条件age=18的过程就是先从termindex找到18在termdictionary的大概位置,然后再从termdictionary里精确地找到18这个term,然后得到一个postinglist或者一个指向postinglist位置的指针。然后再查询gender=女的过程也是类似的。最后得出age=18......
  • 怎样打造一个分布式数据库——rocksDB, raft, mvcc,本质上是为了解决跨数据中心的复制
    为什么我们要创建另外一个数据库?在前面三十年基本上是关系数据库的时代,那个时代创建了很多伟大的公司,比如说IBM、Oracle、微软也有自己的数据库,早期还有一个公司叫Sybase,有一部分特别老的程序员同学在当年的教程里面还可以找到这些东西,但是现在基本上看不到了。另外是NoSQL。NoS......