随着云技术的飞速发展,云数据湖作为一种新兴的数据管理架构,正逐渐成为企业大数据战略的核心。云数据湖不仅集成了传统数据仓库的功能,还具备处理大规模、多源、结构化和非结构化数据的能力,为企业提供了前所未有的数据存储、处理和分析的灵活性。
云数据湖是一种基于云计算技术构建的数据存储和处理平台,旨在集成来自不同来源的数据,提供统一的数据访问和处理接口。云数据湖作为大数据时代的核心平台,将在数据设置、管理和治理中发挥越来越重要的作用。企业应抓住这一机遇,积极构建云数据湖,提升数据管理能力,实现业务价值的最大化。
企业比以往任何时候都更加了解云数据湖架构对于从数据中获取价值的重要性。但是,要构建一个稳健、可扩展、性能卓越的数据湖,仍然是一个复杂的命题,因为需要大量的工具和选项协同工作,以提供从数据到洞察力的无缝端到端管道。
如果你身处于这样的环境,面对这样的问题,我推荐你阅读《云数据湖:构建健壮的云数据架构》,这本实用书籍简明而全面地概述了云数据湖的设置、管理和治理。作者Rukmani Gopalan是一位产品管理领导者和数据爱好者,他指导数据架构师和工程师了解云数据湖工作的主要方面,从设计考虑因素和最佳实践到数据格式优化、性能优化、成本管理和治理。通过阅读本书,你将:
了解基于云的大数据战略对企业的益处。
获得设计高性能、可扩展数据湖的指导和最佳实践。
研究架构和设计选择以及数据管理原则和策略。
构建可随着组织和业务需求的增加而扩展的数据战略。
在云中实施可扩展的数据湖。
使用基于云的高级分析,从数据中获取更多价值。
内容简介
本书详细介绍了可用于数据处理的表格格式、云产品、框架、存储层,以及如何将这些内容组合在一起,以获得适合自己需求的高性能解决方案。作者在书中提供的决策框架将帮助你明智地决定选择哪种数据湖。本书是大数据领域每个人的必读书。阅读本书后,你将了解构建云数据湖所需的所有基础知识,并能够以多种方式应用这些知识。本书主要面向数据架构师、数据开发人员和数据运维专业人员,他们希望广泛地了解设置和运营云数据湖的各个方面。
作者简介
本书的作者是Rukmani Gopalan,他是微软经验丰富的产品管理负责人。除了开发高度可扩展的服务和令人愉悦的端到端客户体验外,她还与零售、制造和医疗保健等不同行业的各种客户合作,在云上构建他们的大数据分析解决方案。在从单一的本地数据平台迁移时,Rukmani还致力于在云上构建高度可扩展的数据湖架构。
以下是书籍目录,可以快速了解到书籍中的内容:
目录
目录
前言1
第1章 大数据—超越喧嚣9
1.1 什么是大数据10
1.2 弹性数据基础设施的挑战14
1.3 云计算基础15
1.3.1 云计算术语16
1.3.2 云的价值主张17
1.4 云数据湖架构19
1.4.1 本地数据仓库解决方案的限制20
1.4.2 什么是云数据湖架构21
1.4.3 云数据湖架构的优势21
1.5 开启云数据湖之旅23
1.6 总结26
第2章 云上的大数据架构27
2.1 为什么Klodars公司要迁移到云27
2.2 云数据湖架构基础28
2.2.1 浅谈数据的多样性29
2.2.2 云数据湖存储31
2.2.3 大数据分析引擎33
2.2.4 云数据仓库39
2.3 现代数据仓库架构41
2.3.1 参考架构41
2.3.2 现代数据仓库架构的用例43
2.3.3 现代数据仓库架构的优势和挑战45
2.4 数据湖仓一体架构45
2.4.1 参考架构46
2.4.2 数据湖仓一体架构的用例52
2.4.3 数据湖仓一体架构的优势和挑战54
2.4.4 数据仓库和非结构化数据56
2.5 数据网格56
2.5.1 参考架构57
2.5.2 数据网格架构的用例59
2.5.3 数据网格架构的优势和挑战59
2.6 什么是适合的架构60
2.6.1 了解客户60
2.6.2 了解业务驱动因素61
2.6.3 考虑增长和未来场景62
2.6.4 设计注意事项62
2.6.5 混合方法64
2.7 总结64
第3章 数据湖的设计注意事项66
3.1 设置云数据湖基础设施66
3.1.1 确定目标67
3.1.2 规划架构和可交付成果70
3.1.3 云数据湖实施74
3.1.4 发布和运行75
3.2 在数据湖中组织数据75
3.2.1 数据生命中的一天75
3.2.2 数据湖区76
3.2.3 组织机制79
3.3 数据治理简介80
3.3.1 数据治理的参与者81
3.3.2 数据分类83
3.3.3 元数据管理、数据目录和数据共享84
3.3.4 数据访问管理85
3.3.5 数据质量和可观测性86
3.3.6 Klodars公司的数据治理89
3.3.7 数据治理总结90
3.4 管理数据湖成本91
3.4.1 揭秘云上的数据湖成本92
3.4.2 数据湖成本策略94
3.5 总结96
第4章 可扩展的数据湖97
4.1 可扩展性探秘97
4.1.1 什么是可扩展性98
4.1.2 日常生活中的规模98
4.1.3 数据湖架构中的可扩展性101
4.2 数据湖处理系统的内部104
4.2.1 内部数据复制105
4.2.2 内部ELT/ETL处理107
4.2.3 关于其他交互式查询的说明110
4.3 可扩展数据湖解决方案的注意事项110
4.3.1 选择合适的云产品111
4.3.2 峰值容量规划114
4.3.3 数据格式和作业配置文件116
4.4 总结117
第5章 优化云数据湖架构以提高性能118
5.1 度量性能的基础知识118
5.1.1 性能的目标和指标120
5.1.2 度量性能121
5.1.3 优化以提高性能122
5.2 云数据湖性能124
5.2.1 SLA、SLO和SLI124
5.2.2 示例:Klodars公司如何管理其SLA、SLO和SLI125
5.3 性能驱动因素126
5.3.1 复制作业的性能驱动因素127
5.3.2 Spark作业的性能驱动因素129
5.4 性能调优的优化原则和技术132
5.4.1 数据格式132
5.4.2 数据组织和分区138
5.4.3 在Apache Spark上选择正确的配置140
5.5 减少数据传输开销142
5.6 优质产品和性能143
5.6.1 大型虚拟机案例144
5.6.2 闪存案例144
5.7 总结145
第6章 深入了解数据格式146
6.1 为什么我们需要这些开放数据格式146
6.1.1 为什么我们需要存储表格数据147
6.1.2 为什么在云数据湖中存储表格数据是一个问题148
6.2 Delta Lake149
6.2.1 为什么开发Delta Lake149
6.2.2 Delta Lake如何工作152
6.2.3 什么时候使用Delta Lake153
6.3 Apache Iceberg154
6.3.1 为什么开发Apache Iceberg154
6.3.2 Apache Iceberg是如何工作的155
6.3.3 什么时候使用Apache Iceberg157
6.4 Apache Hudi159
6.4.1 为什么孵化Apache Hudi159
6.4.2 Apache Hudi如何工作160
6.4.3 什么时候使用Apache Hudi163
6.5 总结164
第7章 架构的决策框架165
7.1 云数据湖评估166
7.2 云数据湖评估分析168
7.2.1 从零开始169
7.2.2 将现有数据湖或数据仓库迁移到云169
7.2.3 改进现有的云数据湖170
7.3 决策框架的第1阶段:评估171
7.3.1 了解客户需求171
7.3.2 了解改进的机会172
7.3.3 了解业务驱动因素174
7.3.4 确定需求的优先级来完成评估阶段175
7.4 决策框架的第2阶段:定义176
7.4.1 确定云数据湖的设计选择178
7.4.2 规划云数据湖项目可交付成果181
7.5 决策框架的第3阶段:实施183
7.6 决策框架的第4阶段:操作185
7.7 总结186
第8章 数据启迪未来的六大经验187
8.1 第1课:关注云数据湖的工作方式和时间,而不是“如果”和
“为什么”188
8.2 第2课:权力越大,责任越大—数据也不例外188
8.3 第3课:客户引领技术,而不是技术引领客户190
8.4 第4课:改变是不可避免的,所以要做好准备192
8.5 第5课:建立同理心,分清轻重缓急192
8.6 第6课:巨大的影响不会在一夜之间发生193
8.7 总结194