简介
Atlas是Hadoop生态的元数据管理框架,有以下功能特性:
- 元数据类型:支持多种Hadoop和非Hadoop元数据的预定义类型,提供元数据定义新类型的能力,类型可以具有原始属性、复杂属性、对象引用,可以从其他类型继承。
- 分类:提供动态创建分类的能力,元数据实体可以与多个分类相关联,具有分类传播的特性。
- 血缘:提供直观的UI界面,可以通过REST API访问和更新血统。
- 搜索/发现:支持通过类型、分类、属性值或全文检索进行搜索。
- 安全与数据屏蔽:与Apache Ranger集成可以实现基于分类的数据访问策略。
架构原理
安装
组件依赖
组件 | 版本 |
---|---|
Hadoop | 3.1.1 |
Hive | 3.1.0 |
Zookeeper | 3.4.6 |
Hbase | 2.0.2 |
Kafka | 2.0.0 |
Elasticsearch | 5.6.4 |
Solr | 7.5.0 |
Storm | 1.2.0 |
Sqoop | 1.4.6.2.3.99.0-195 |
falcon | 0.8 |
Atlas | 2.1.0 |
内嵌安装- 独立安装
元数据采集
数据源 | 提供者 | 备注 |
---|---|---|
数据源 | 提供者 | 备注 |
Hbase | 官网 | 待验证 |
Hive | 官网 | 已验证,支持元数据全量同步和实时更新,支持血缘关系 |
Sqoop | 官网 | 待验证,支持导入RDBMS元数据,但是否支持血缘关系,需要验证 |
Storm | 官网 | 待验证 |
Kafka | 官网 | 待验证 |
Falcon | 官网 | 待验证 |
Spark | hortonworks | 待验证 |
自定义元数据类型 |
实现自定义数据源需要两部分工作:
|
Rest API 使用
http://atlas.apache.org/api/v2/index.html
待调查内容
- 自定义元数据类型、自定义Hook
- 关系型数据库元数据接入、血缘分析
- Admin UI 功能详细使用,包括 Search,Classification,Glossary
- Rest API的使用
- 业务元数据、技术元数据区分
- 数据库集群信息或表的统计信息收集,包括表名、所属集群、所属库、表中的记录数、数据占用存储量等。
标签:自定义,验证,数据类型,初步,Atlas,官网,数据,调研 From: https://www.cnblogs.com/libin2015/p/17952208