首页 > 其他分享 >云时代:一本关于数据设置、管理和治理的真经

云时代:一本关于数据设置、管理和治理的真经

时间:2025-01-13 23:57:52浏览次数:3  
标签:架构 性能 数据仓库 一本 真经 治理 Apache 数据 3.3

随着云技术的飞速发展,云数据湖作为一种新兴的数据管理架构,正逐渐成为企业大数据战略的核心。云数据湖不仅集成了传统数据仓库的功能,还具备处理大规模、多源、结构化和非结构化数据的能力,为企业提供了前所未有的数据存储、处理和分析的灵活性。

云数据湖是一种基于云计算技术构建的数据存储和处理平台,旨在集成来自不同来源的数据,提供统一的数据访问和处理接口。云数据湖作为大数据时代的核心平台,将在数据设置、管理和治理中发挥越来越重要的作用。企业应抓住这一机遇,积极构建云数据湖,提升数据管理能力,实现业务价值的最大化。

企业比以往任何时候都更加了解云数据湖架构对于从数据中获取价值的重要性。但是,要构建一个稳健、可扩展、性能卓越的数据湖,仍然是一个复杂的命题,因为需要大量的工具和选项协同工作,以提供从数据到洞察力的无缝端到端管道。

如果你身处于这样的环境,面对这样的问题,我推荐你阅读《云数据湖:构建健壮的云数据架构》,这本实用书籍简明而全面地概述了云数据湖的设置、管理和治理。作者Rukmani Gopalan是一位产品管理领导者和数据爱好者,他指导数据架构师和工程师了解云数据湖工作的主要方面,从设计考虑因素和最佳实践到数据格式优化、性能优化、成本管理和治理。通过阅读本书,你将:

了解基于云的大数据战略对企业的益处。获得设计高性能、可扩展数据湖的指导和最佳实践。研究架构和设计选择以及数据管理原则和策略。构建可随着组织和业务需求的增加而扩展的数据战略。在云中实施可扩展的数据湖。使用基于云的高级分析,从数据中获取更多价值。

内容简介

本书详细介绍了可用于数据处理的表格格式、云产品、框架、存储层,以及如何将这些内容组合在一起,以获得适合自己需求的高性能解决方案。作者在书中提供的决策框架将帮助你明智地决定选择哪种数据湖。本书是大数据领域每个人的必读书。阅读本书后,你将了解构建云数据湖所需的所有基础知识,并能够以多种方式应用这些知识。本书主要面向数据架构师、数据开发人员和数据运维专业人员,他们希望广泛地了解设置和运营云数据湖的各个方面。

作者简介

本书的作者是Rukmani Gopalan,他是微软经验丰富的产品管理负责人。除了开发高度可扩展的服务和令人愉悦的端到端客户体验外,她还与零售、制造和医疗保健等不同行业的各种客户合作,在云上构建他们的大数据分析解决方案。在从单一的本地数据平台迁移时,Rukmani还致力于在云上构建高度可扩展的数据湖架构。

以下是书籍目录,可以快速了解到书籍中的内容:

目录

目录
前言1
第1章 大数据—超越喧嚣9
1.1 什么是大数据10
1.2 弹性数据基础设施的挑战14
1.3 云计算基础15
1.3.1 云计算术语16
1.3.2 云的价值主张17
1.4 云数据湖架构19
1.4.1 本地数据仓库解决方案的限制20
1.4.2 什么是云数据湖架构21
1.4.3 云数据湖架构的优势21
1.5 开启云数据湖之旅23
1.6 总结26
第2章 云上的大数据架构27
2.1 为什么Klodars公司要迁移到云27
2.2 云数据湖架构基础28
2.2.1 浅谈数据的多样性29
2.2.2 云数据湖存储31
2.2.3 大数据分析引擎33
2.2.4 云数据仓库39
2.3 现代数据仓库架构41
2.3.1 参考架构41
2.3.2 现代数据仓库架构的用例43
2.3.3 现代数据仓库架构的优势和挑战45
2.4 数据湖仓一体架构45
2.4.1 参考架构46
2.4.2 数据湖仓一体架构的用例52
2.4.3 数据湖仓一体架构的优势和挑战54
2.4.4 数据仓库和非结构化数据56
2.5 数据网格56
2.5.1 参考架构57
2.5.2 数据网格架构的用例59
2.5.3 数据网格架构的优势和挑战59
2.6 什么是适合的架构60
2.6.1 了解客户60
2.6.2 了解业务驱动因素61
2.6.3 考虑增长和未来场景62
2.6.4 设计注意事项62
2.6.5 混合方法64
2.7 总结64
第3章 数据湖的设计注意事项66
3.1 设置云数据湖基础设施66
3.1.1 确定目标67
3.1.2 规划架构和可交付成果70
3.1.3 云数据湖实施74
3.1.4 发布和运行75
3.2 在数据湖中组织数据75
3.2.1 数据生命中的一天75
3.2.2 数据湖区76
3.2.3 组织机制79
3.3 数据治理简介80
3.3.1 数据治理的参与者81
3.3.2 数据分类83
3.3.3 元数据管理、数据目录和数据共享84
3.3.4 数据访问管理85
3.3.5 数据质量和可观测性86
3.3.6 Klodars公司的数据治理89
3.3.7 数据治理总结90
3.4 管理数据湖成本91
3.4.1 揭秘云上的数据湖成本92
3.4.2 数据湖成本策略94
3.5 总结96
第4章 可扩展的数据湖97
4.1 可扩展性探秘97
4.1.1 什么是可扩展性98
4.1.2 日常生活中的规模98
4.1.3 数据湖架构中的可扩展性101
4.2 数据湖处理系统的内部104
4.2.1 内部数据复制105
4.2.2 内部ELT/ETL处理107
4.2.3 关于其他交互式查询的说明110
4.3 可扩展数据湖解决方案的注意事项110
4.3.1 选择合适的云产品111
4.3.2 峰值容量规划114
4.3.3 数据格式和作业配置文件116
4.4 总结117
第5章 优化云数据湖架构以提高性能118
5.1 度量性能的基础知识118
5.1.1 性能的目标和指标120
5.1.2 度量性能121
5.1.3 优化以提高性能122
5.2 云数据湖性能124
5.2.1 SLA、SLO和SLI124
5.2.2 示例:Klodars公司如何管理其SLA、SLO和SLI125
5.3 性能驱动因素126
5.3.1 复制作业的性能驱动因素127
5.3.2 Spark作业的性能驱动因素129
5.4 性能调优的优化原则和技术132
5.4.1 数据格式132
5.4.2 数据组织和分区138
5.4.3 在Apache Spark上选择正确的配置140
5.5 减少数据传输开销142
5.6 优质产品和性能143
5.6.1 大型虚拟机案例144
5.6.2 闪存案例144
5.7 总结145
第6章 深入了解数据格式146
6.1 为什么我们需要这些开放数据格式146
6.1.1 为什么我们需要存储表格数据147
6.1.2 为什么在云数据湖中存储表格数据是一个问题148
6.2 Delta Lake149
6.2.1 为什么开发Delta Lake149
6.2.2 Delta Lake如何工作152
6.2.3 什么时候使用Delta Lake153
6.3 Apache Iceberg154
6.3.1 为什么开发Apache Iceberg154
6.3.2 Apache Iceberg是如何工作的155
6.3.3 什么时候使用Apache Iceberg157
6.4 Apache Hudi159
6.4.1 为什么孵化Apache Hudi159
6.4.2 Apache Hudi如何工作160
6.4.3 什么时候使用Apache Hudi163
6.5 总结164
第7章 架构的决策框架165
7.1 云数据湖评估166
7.2 云数据湖评估分析168
7.2.1 从零开始169
7.2.2 将现有数据湖或数据仓库迁移到云169
7.2.3 改进现有的云数据湖170
7.3 决策框架的第1阶段:评估171
7.3.1 了解客户需求171
7.3.2 了解改进的机会172
7.3.3 了解业务驱动因素174
7.3.4 确定需求的优先级来完成评估阶段175
7.4 决策框架的第2阶段:定义176
7.4.1 确定云数据湖的设计选择178
7.4.2 规划云数据湖项目可交付成果181
7.5 决策框架的第3阶段:实施183
7.6 决策框架的第4阶段:操作185
7.7 总结186
第8章 数据启迪未来的六大经验187
8.1 第1课:关注云数据湖的工作方式和时间,而不是“如果”和
  “为什么”188
8.2 第2课:权力越大,责任越大—数据也不例外188
8.3 第3课:客户引领技术,而不是技术引领客户190
8.4 第4课:改变是不可避免的,所以要做好准备192
8.5 第5课:建立同理心,分清轻重缓急192
8.6 第6课:巨大的影响不会在一夜之间发生193
8.7 总结194

标签:架构,性能,数据仓库,一本,真经,治理,Apache,数据,3.3
From: https://blog.csdn.net/huanfeng_AI/article/details/145126732

相关文章

  • 电商平台如何做数据治理
    一、项目背景随着业务的快速发展,该电商平台积累了海量的数据,涵盖用户信息、商品信息、订单数据、营销活动数据等多个领域。然而,在数据使用过程中,平台逐渐暴露出诸多问题:数据质量参差不齐,存在大量重复、错误和缺失的数据;数据标准不统一,不同部门对相同业务概念的定义和编码方......
  • 中国电信研究院出版,一本人人都能读懂的AI大模型综合指南!大模型从入门到精通只看这一本
    来了兄弟们,今天又来分享大模型书籍了,沉寂的这段时间都在不停地学习,最近大模型又出了不少新东西,比如deepseekv3,真的太牛了!好了不说多的了,今天给大家带来的是这本书—《一本书读懂大模型:技术创新、商业应用与产业变革》。这是一本人人都能读懂的大模型综合指南,既是一本大......
  • 免费下载 | 最新发布-2024数据安全治理实践指南(4.0)
    《数据安全治理实践指南(4.0)》是中国通信标准化协会大数据技术标准推进委员会于2024年12月发布的报告,旨在帮助企业提升数据安全治理水平。报告由多家单位共同编写,包括中国信息通信研究院云计算与大数据研究所、浙商银行等。相较于前序版本,4.0版本在数据安全场景化实践路线、数......
  • 【抖音】抖音将建立安全与信任中心,推进算法和平台治理透明化的10项措施
    抖音致力于打造一个开放、积极、多元、友善的平台,帮助用户记录自我,分享美好生活。为了回应社会关切,抖音拟推出10项措施,切实推动平台工作透明化,创建安全与信任的平台环境,打造更良好的网络生态:1.推进算法透明化。2025年,抖音将建设安全与信任中心网站和线下公示展厅,面向社会全面深......
  • 数字化时代下的数字化资产及其治理
    作者:京东科技李然辉1什么是数字化资产维克托·迈尔·舍恩伯格在《大数据时代》中提到:“虽然数据还没有被列入企业的资产负债表,但这只是一个时间问题。”数据资源将和土地、人力、资金等生产要素一样,成为企业的资产。业界对于数据资产的定义是企业或组织拥有或控制的,能在未来带......
  • 【软件供应链安全】Saas化产品开发过程中的开源组件安全治理实践
    供应链金融业务及产品往往以Saas化服务租赁、贴牌及本地化标品应用部署的形式持续向国央企、军工、地产、金融机构及中小微企业提供服务,系统产品逐渐趋于成熟的同时,客户基于国家信息安全技术、法律法规及在产品安全质量上提出了比较高的要求,旨在确保软件开发生命周期安全、第三方......
  • 信息学奥赛一本通汇总
    「基础算法」第1章递推算法博客链接总结:一般有具体的情境,可以通过直接的模拟转移过程来实现递推,T2,T4,T9找到已知状态和所求状态的差别和联系,想办法将所求转化为已知进行转移,一般要用到分讨,T1,T3根据题目将问题转化,增维,然后转化后进行递推,T8第2章贪心算法博客链接总结:......
  • 基于Spring Boot的县乡村生活垃圾治理问题中运输地图的设计与实现
    一、项目背景与目标背景:随着乡村生活垃圾产量的不断增加,如何高效、环保地处理这些垃圾成为了一个亟待解决的问题。传统的运输方式往往存在路线规划不合理、运输效率低下等问题,因此需要一个智能化的运输地图系统来辅助管理。目标:设计一个基于SpringBoot的运输地图系统,能够......
  • 企业数字化转型,数据治理是关键.240109
    企业数字化转型是大势所趋,通过数据治理、数据平台建设、数据分析与建模,把数据变成服务,使数据能在企业内顺畅流动起来,为企业带来巨大的价值。数据是企业数字化转型的重要基础。数据能创造价值,但数据创造价值的功能并不能由数据自身来直接实现,数据要素也不能直接参与价值分配,而是要......
  • 数据治理中,常用的术语解释.17954423
    1指标是表征和评价一项或多项经营活动业务绩效的指示。指标由指标名称和指标数值两部分组成,指标名称及其涵义体现指标在质和量方面的规定性,指标数值反映指标在具体对象在特定时间、空间、条件下的数量表现。2维度维度是指数据分析中用来描述和分类数据的属性或特征。在数据分......