首页 > 其他分享 >读数据湖仓08数据架构的演化

读数据湖仓08数据架构的演化

时间:2024-10-06 09:02:50浏览次数:4  
标签:存储 08 应用程序 2.9 湖仓 读数据 数据 2.5

1. 数据目录

1.1. 需要将分析基础设施放置在数据目录(Data Catalogue)的结构中

  • 1.1.1. 元数据

  • 1.1.2. 数据模型

  • 1.1.3. 本体

  • 1.1.4. 分类标准

1.2. 数据目录类似于图书馆的图书检索目录

  • 1.2.1. 先通过图书馆的图书检索目录进行查找,以便快速找到所需的图书

  • 1.2.2. 数据目录的运行方式与此类似,它负责连接组织中的所有文档和数据库

  • 1.2.3. 利用数据目录在基础数据中进行检索,能够节约大量的时间

1.3. 永久维护

  • 1.3.1. 数据目录经常被忽略的一个因素是它总在变化

  • 1.3.2. 数据目录也在不断地被更新维护

  • 1.3.3. 持续不断更新维护数据目录的原因

    • 1.3.3.1. 业务环境持续变化

    • 1.3.3.2. 系统不断变化

    • 1.3.3.3. 不断加入新系统

1.4. 开放

  • 1.4.1. 数据目录应该是开放的,且可供组织中的任何人分析使用,唯一例外的是那些试图对组织发起恶意行为的人

  • 1.4.2. 管理人员

  • 1.4.3. 文员

  • 1.4.4. 日常运营人员

  • 1.4.5. 审计师

  • 1.4.6. 分析人员

1.5. 不同数据类型的内部结构

  • 1.5.1. 结构化的数据目录可以在不同类型的数据之间产生关系

1.6. 分析工具可以用于处理数据目录中的数据,就像它可以用于分析基础数据中的详细数据一样

  • 1.6.1. 以独立于基础数据对数据目录进行分析

  • 1.6.2. 与大容量存储器不同,数据目录是数据湖仓的必要组成部分

2. 数据架构的演化

2.1. 数据架构是多类型数据处理的核心

  • 2.1.1. 没有数据架构,就没有坚实的数据基础可依赖

  • 2.1.2. 人工智能、机器学习和数据网格只有依赖数据架构,才能在各自的环境中取得成功

2.2. 数据湖仓中的基础数据是基于深思熟虑和精细设计的数据架构而来的

2.3. 伊始

  • 2.3.1. 应用程序只能读取输入,处理后并生成输出

  • 2.3.2. 简单的应用程序能够在企业等组织中高效地执行重复性工作,从而为组织节省大量工作时间

2.4. 应用程序

  • 2.4.1. 发现还可以编写更加复杂的应用程序

  • 2.4.2. 由于新的应用程序开始处理大量数据,并且生成更多的数据,因此,当时使用的存储介质(如打孔卡片和纸带)已经不足以存储这些数据

2.5. 磁带文件

  • 2.5.1. 随着发展,磁带文件成为数据存储的主要媒介

  • 2.5.2. 相比早期媒介,磁带文件能够存储更多的数据

  • 2.5.3. 与打孔卡片相比,磁带文件有许多优势,如存储成本更低,不需要固定长度的记录,并且可以重复使用

  • 2.5.4. 随着磁带文件的出现,主文件(Master File)的概念随之而来

    • 2.5.4.1. 主文件对于收集和存储组织的主要实体(如客户、产品和运输)的相关数据非常有用,它的理念是将相关信息集中存储在一个地方
  • 2.5.5. 磁带文件可以更有效地存储数据,但是在使用磁带文件时,要想访问单条记录,则必须读取整个文件

    • 2.5.5.1. 导致长时间的低效处理
  • 2.5.6. 虽然磁带文件解决了打孔卡片的众多问题,但也引入了一系列新的挑战

  • 2.5.7. 磁带文件也不能长时间保存数据

    • 2.5.7.1. 当磁带文件存储一段时间后,磁带文件上的氧化物会磨损而导致文件损坏,进而变得毫无价值

2.6. 硬盘存储

  • 2.6.1. 随着硬盘存储系统的出现,我们能够更加便捷地电子化存储和访问数据

  • 2.6.2. 数据库管理系统应运而生,负责管理这些数据

  • 2.6.3. 随着时间的推移,硬盘存储的生产成本逐步降低,最终变得经济实惠

  • 2.6.4. 硬盘存储带来的一项创新功能是可以便捷地直接存取数据,而不需要遍历整个文件

2.7. OLTP

  • 2.7.1. 由于数据能够快速存取,因此出现了一种被称为联机事务处理(OLTP)的技术

  • 2.7.2. OLTP使得计算机成为组织日常业务处理的重要组成部分

  • 2.7.3. OLTP将计算机的角色从仅处理后台任务提升到直接与客户进行接口交互

  • 2.7.4. 当计算机不可用或响应速度变慢时,业务将会受到影响

  • 2.7.5. OLTP应用程序会尽可能快地丢弃数据以保持响应速度

  • 2.7.6. 在历史数据变得愈发重要时,OLTP中却没有适合存储历史数据的位置

2.8. 个人计算机

  • 2.8.1. 个人计算机变得非常受欢迎。它的价格低廉,轻量便携,甚至可以随身携带

  • 2.8.2. 个人计算机为那些从未接触过计算机技术的人群打开了学习计算机的大门

  • 2.8.3. 个人计算机赋予终端用户更多自主权

  • 2.8.4. 多年来,IT部门一直是决定构建哪些应用程序以及允许哪些计算机能够被访问的唯一决策机构

  • 2.8.5. 随着个人计算机的进一步普及,IT部门逐渐失去计算机的控制权

2.9. 4GL处理技术和数据抽取应用程序

  • 2.9.1. 4GL(Fourth Generation Language,第四代编程语言)处理的技术应运而生

  • 2.9.2. 4GL处理技术使终端用户不再需要依赖IT部门来进行处理和编程

  • 2.9.3. 数据抽取应用程序在不同应用程序之间迁移和传递数据方面扮演重要角色

  • 2.9.4. 数据抽取应用程序与众多应用程序的结合导致了数据的不一致性问题

    • 2.9.4.1. 现在面临的挑战不再是找不到数据,而是要找到可信的数据
  • 2.9.5. 数据的不一致性问题是一个架构问题,而非技术问题

    • 2.9.5.1. 增加更多技术只会让问题变得更糟,而不是更好
  • 2.9.6. 从应用程序生成的数据到企业数据的转换并不是唯一的问题

  • 2.9.7. 长时间存储数据变得相当必要

    • 2.9.7.1. 在数据仓库应用程序出现之前,事务处理仅能够存储较短时间的数据,通常为几周到一个月

    • 2.9.7.2. 如果应用程序数据存储时间较长,那么事务响应速度会受到影响

    • 2.9.7.3. 人们发现将数据存储时间延长超过几周是有价值的

      2.9.7.3.1. 历史数据有助于我们发现和分析消费者的消费习惯

2.10. 数据仓库

  • 2.10.1. 提供企业数据视图

  • 2.10.2. 可用于分析即时可用的数据

  • 2.10.3. 可通过多种方式重塑粒度数据

  • 2.10.4. 可以将历史数据用于长期分析

  • 2.10.5. 数据仓库的架构持续了相当长的时间,至今仍在使用

2.11. 数据集市

  • 2.11.1. 为了满足对特定领域中数据使用的需求,一种被称为数据集市的架构出现

  • 2.11.2. 数据集市使用数据仓库中已有的粒度数据,并将其重塑为终端用户需求的形式和结构

  • 2.11.3. 通过数据集市,不同部门能够获取一致的数据,因为它们所看到的数据来源是相同的,那就是数据仓库

2.12. ⑩互联网和物联网数据

  • 2.12.1. 互联网还提供了大量来自世界各地的数据

2.13. ⑾数据湖

  • 2.13.1. 在技术和数据的竞合过程中出现了一种数据架构——数据湖

  • 2.13.2. 数据湖就会变成数据沼泽,或者也可以称为数据臭水沟

  • 2.13.3. 由于数据湖中的数据是未集成的,因此人们不清楚很多数据的内容

  • 2.13.4. 数据湖巨大无比,这导致人们难以找到他们想要的具体数据

  • 2.13.5. 数据湖中的数据没有进行任何整合,人们没有办法将其中一种类型的数据与其他类型的数据进行合理关联

  • 2.13.6. 由于数据形式非常混乱,人们无法有效地连接多个数据元素

2.14. ⑿数据湖仓

  • 2.14.1. 在数据湖混乱的背景下,数据湖仓诞生

  • 2.14.2. 数据湖仓为数据湖添加了功能——分析基础设施,并在将数据存入数据湖仓之前进行集成

  • 2.14.3. 数据湖仓成为一个可行的数据架构,能够满足组织的分析需求

  • 2.14.4. 前数据湖仓是一个成熟的架构,可以满足需求

  • 2.14.5. 未来肯定还会出现架构增强的数据湖仓,以及与数据湖仓不同的形式,以支持新的需求

标签:存储,08,应用程序,2.9,湖仓,读数据,数据,2.5
From: https://www.cnblogs.com/lying7/p/18442095

相关文章

  • 题解:P11008 『STA - R7』异或生成序列
    Solution序列\(p\)是\(1\)~\(n\)的排列,因此考虑搜索回溯。由\(\sumn\le2\times10^6\)得知\(O(n^2)\)会炸,深感遗憾但仍考虑剪枝。坚信深搜过百万的蒟蒻。。。原\(b\)序列为长度\(n-1\)的序列:{\(b_1,b_2,b_3\cdotsb_n-1\)}将其前面插入一个元素\(......
  • 读数据湖仓07描述性数据
    1. 描述性数据1.1. 基础数据中包含不同类型的数据,而不同类型数据的描述性数据也存在显著的差异1.2. 尽管这些描述性数据存在根本性的差异,但通过描述性数据,我们可以全面了解基础数据中的数据1.3. 通过分析基础设施中提供的描述性数据可以获得更详细的数据1.3.1. 分析基......
  • CF1108F题解
    传送门:https://codeforces.com/problemset/problem/1108/F求出最小生成树后处理出任意两点间边的最大值,这里可以用倍增或者树刨。然后用不在生成树上的边去替换,如果边权和边两端点路径最大边值相同则最小生成树不唯一,需要将边权\(+1\)。实现比较简单,写了一遍就过了。#include<b......
  • 读数据湖仓06数据集成
    1. 数据湖仓中的数据集成1.1. 数据湖仓的总体目标是为每一个人提供支持,包括从普通职员到CEO1.2. 有了作为基础设施的基础数据,企业等组织才能实现真正的数据驱动1.3. 提供组织所需的数据,最关键的一环在于提供集成的数据基础1.3.1. 只将数据扔进数据湖仓就指望它能满足......
  • 读数据湖仓05数据需要的层次
    1. 业务价值1.1. 技术和商业在这个世界上是相互交织的1.1.1. 基础数据在商业和技术应用中是不可或缺的1.2. 技术的存在是为了推动商业的目标和进步,并由企业出资支持1.2.1. 当技术推动商业发展时,商业会蓬勃发展,技术也会随之繁荣1.2.2. 当技术发展偏离这个基本模......
  • 题解:SP4555 ANARC08F - Einbahnstrasse
    一道多源最短路问题,肯定用Floyd,还有个问题就是怎么处理输入。使用sscanf(edge+2,"%d",&cost);从edge的第三个字符开始读取边权,然后处理左右两侧的箭头即可。#include<bits/stdc++.h>usingnamespacestd;map<string,int>cn;intct;intq[1028];intadd_city(constch......
  • 题解:SP4557 ANARC08H - Musical Chairs
    约瑟夫问题,由于问题涉及大量的删除和查找操作,直接用数组模拟会超时,可以用树状数组题意在每一轮游戏中,我们需要从当前的孩子位置开始数数,并淘汰第\(D\)个孩子。游戏需要不断地从剩下的孩子中进行选择并淘汰,直到只剩下最后一个孩子。注意两个点将树状数组的位置设为\(1\)......
  • Day08-常量、变量、作用域
    变量、常量、作用域变量变量是可以变化的量。Java是强类型语言,每个变量都须声明类型。Java变量是程序中最基本的存储单元,要素包括变量名、变量类型和作用域。其声明格式为typevarName[=value][{,varName[=value]}];//可在同一行内为多个变量赋值,但不建议这样做//数......
  • Day08——强制转换
    类型转换由于Java是强类型语言,所以要进行有些运算的时候,需要用到类型转换。类型的优先级低----------------------------------------------------------->高byte,short,char->int->long->float->double运算中,不同类型的数据先转化为同一类型,然后进行运算。//内存溢出......
  • 痞子衡嵌入式半月刊: 第 108 期
    痞子衡嵌入式半月刊:第108期这里分享嵌入式领域有用有趣的项目/工具以及一些热点新闻,农历年分二十四节气,希望在每个交节之日准时发布一期。本期刊是开源项目(GitHub:JayHeng/pzh-mcu-bi-weekly),欢迎提交issue,投稿或推荐你知道的嵌入式那些事儿。上期回顾:《痞子衡嵌入式半月......