首页 > 其他分享 >读数据湖仓05数据需要的层次

读数据湖仓05数据需要的层次

时间:2024-10-03 08:51:07浏览次数:1  
标签:需要 层次 05 技术 读数据 业务 湖仓 2.3 数据

1. 业务价值

1.1. 技术和商业在这个世界上是相互交织的

  • 1.1.1. 基础数据在商业和技术应用中是不可或缺的

1.2. 技术的存在是为了推动商业的目标和进步,并由企业出资支持

  • 1.2.1. 当技术推动商业发展时,商业会蓬勃发展,技术也会随之繁荣

  • 1.2.2. 当技术发展偏离这个基本模式时,它就会失去生机甚至消亡

  • 1.2.3. 在任何情况下,商业都将决定技术的最终满意度和价值,商业是推动技术发展的关键

1.3. 赚钱对于企业的长期延续至关重要,它是成功的关键,现金流则是商业活动的生命线

1.4. 从长远来看,所有成功的技术都在某种程度上专注于实现业务目标

  • 1.4.1. 建立和维护基础数据是技术支持业务的最佳方式,可以根据数据基础来做出合理的业务决策

  • 1.4.2. 为基础数据打造坚实的基础设施是一项复杂的任务

  • 1.4.3. 创建基础数据为实现这些目标奠定了基础

  • 1.4.4. 当我们在复杂的技术丛林中挣扎时,很容易忘记最终的目标是实现业务价值

1.5. 技术所有的组成部分必须协同工作

1.6. 协调不同的技术组成部分并非易事

  • 1.6.1. 技术基础由多个技术组成部分组合而成

  • 1.6.2. 每个技术组成部分都与其他部分大不相同

  • 1.6.3. 不同的技术组成部分需要排序才能协同工作

  • 1.6.4. 不同的技术组成部分排序所需的时间框架大不相同

  • 1.6.5. 不同的技术组成部分以不同的速率工作

1.7. 领域

  • 1.7.1. 随着技术逐渐脱离领域,单个组成部分会开始考虑构建自己独特的技术,但也会忽视对业务价值的关注

  • 1.7.2. 技术的组成部分甚至无法与业务流程关联,而是将所有的焦点都集中在技术的复杂性上,并非业务需求上

  • 1.7.3. 随着技术逐渐开始建立自己的领域,支持组织业务的愿景也在逐渐丧失

1.8. 每个技术的组成部分都需要聚焦于构建和辅助业务最核心的基础数据

  • 1.8.1. 只有这样做,才能确保组织的技术能够真正致力于支持组织的业务

2. 数据需要的层次

2.1. 类比马斯洛需要层次论

  • 2.1.1. 需要层次论金字塔底部的两个层次是生存所必需的

2.2. 数据需要层次结构的5个层次,从下向上依次为数据获取,数据传输与存储,数据转换,数据标签、整合与汇聚,数据分析与机器学习

2.3. 具体步骤

  • 2.3.1. 只收集真正需要使用的数据

  • 2.3.2. 数据是可信的,也是可理解的

  • 2.3.3. 需要将数据存储在既方便访问又安全的地方

  • 2.3.4. 把数据转换成员工和应用程序可以使用的格式

  • 2.3.5. 将存储和转换后的数据进行整合,以便从不同系统中获取更全面的数据视图

  • 2.3.6. 将数据与适当的元数据汇聚,应用于报表和业务分析系统

  • 2.3.7. 创建能够进行数据学习的系统,优化业务决策,甚至发明一些创新技术

3. 数据获取

3.1. 数据获取是最底层的数据需要层次,也就是第一个层次

3.2. 我们收集的数据远远超出所需要使用的范围

3.3. 我们更擅长收集大量数据

3.4. 数据的来源有很多,我们可以从数据库接口、传感器、业务系统、设备或物联网系统中获取数据

3.5. 无论数据来自何处,都需要保证数据的完整性、准确性与唯一性,并且不能带有偏见

3.6. 即使是文本数据,也应该从原始来源获取,以避免中间转换导致的信息丢失

  • 3.6.1. 应该保存文本数据对应的元数据,以便未来进行数据溯源

3.7. 数据获取层次的关键在于正确地收集和分类数据

  • 3.7.1. 数据必须是正确且可信的

4. 数据传输与存储

4.1. 数据需要层次结构的第二个层次是数据传输与存储

4.2. 为了确保数据传输的可靠性,源系统必须具备可靠的数据传输机制

4.3. 用于存储结构化数据和非结构化数据的系统也必须是冗余的,以保障数据安全,并提升检索效率

  • 4.3.1. 存储系统还应易于访问

4.4. 批处理或联机事务处理数据传输系统,需要配备验证和回滚程序

4.5. 数据提取、转换和加载过程必须符合业务需求和数据治理准则

4.6. 多年来,关系型数据库和数据仓库一直是结构化数据存储与检索的主要方式

5. 数据转换

5.1. 数据转换是将数据转化为对业务决策有用的形式

5.2. 是数据需要层次结构中最困难的层级之一

5.3. 是第三个层次,它要求同时具备数据知识和业务理解

5.4. 数据转换层次对企业来说是建立竞争优势的关键,它能够将来自多个业务系统的数据整合转换为可用于决策支持系统、专家系统、商业智能系统和业务分析系统的数据资源,同时,它还同数据传输与存储层次密切结合

5.5. 数据转换层次的复杂性在于其需要有效地清洗当前“非常混乱”的数据,并按照企业数据治理委员会指定的格式进行数据转换

  • 5.5.1. 如果基础数据不可信、存储方式不正确,就无法与其他数据进行整合

5.6. 数据转换层次的主要任务包括数据清洗、数据转换、面向报表系统整理数据以及进行数据异常检测

5.7. 数据异常检测的目的是通过数据洞察提前检测并修复潜在问题,避免造成严重的影响,从而节省资金

  • 5.7.1. 如果能够提前检测并修复潜在问题,防止它朝错误的方向发展,就能够避免对业务的影响

6. 数据标签、整合与汇聚

6.1. 数据需要层次结构的第四个层次是数据标签、整合与汇聚,这个层次是业务分析和报告系统的核心

6.2. 通过整合数据以满足应用需求,可以为决策者提供信息和洞察力

6.3. 客观的评价指标体系可用于评估数据整合的效果

6.4. 根据不同维度汇聚数据,形成OLAP立方体,不仅有助于发现数据的分布趋势与关联性,而且有助于发现采集数据异常、数据偏差和序列特征

6.5. 数据标签、整合与汇聚层次的重要之处在于它能够创造数据的价值,因为在这个层次,企业才开始真正地使用数据

6.6. 数据标签、整合与汇聚层次提供了访问数据的入口,其他应用都需要构建在该层次之上

  • 6.6.1. 很多企业在数据标签、整合与汇聚层次中获得了稳健的业务支持能力、成功的实践以及竞争优势

7. 数据分析与机器学习

7.1. 数据需要层次结构中的顶层是数据分析与机器学习

7.2. 该层次使用计算机算法并利用现有数据来解释自身

  • 7.2.1. 一旦它理解了现有数据,就可以预测新数据到来时的趋势

  • 7.2.2. 这是机器学习的基础,这些算法可以对预期结果与实际结果进行试验

  • 7.2.3. 如果我们能够预测即将发生的情况,就可以提前制定适当的行动以应对预期的结果

7.3. 基于数据分析与机器学习层次,企业可以根据数据进行业务决策的优化

7.4. 正确预测并提前制定适当的行动能够使得企业在面对竞争对手时获得真正的数据竞争优势

7.5. 在数据分析不断深入发展的背景下,计算机算法持续进步,拥有模拟人类智能的系统开始出现

标签:需要,层次,05,技术,读数据,业务,湖仓,2.3,数据
From: https://www.cnblogs.com/lying7/p/18441997

相关文章

  • 05-论说文:审题与立意(2)
    争论性材料 描述性材料         审题最难的 有个三段论!! 人工智能的作用 有好有坏  技术变革是中项 三段论        、  这怎么写?      经济联考: 蚂蚁==》资源 可持续发展 ......
  • hdu1705 Count the grid
    皮克定理是指一个计算点阵中顶点在格点上的多边形面积公式,该公式可以表示为2S=2a+b-2,其中a表示多边形内部的点数,b表示多边形边界上的点数,s表示多边形的面积。多边形边界上的整数点怎么求呢?当然是gcd啦~~ gcd(x1-x2,y1-y2)就是这条边上整数点的个数。但是仅仅一条边是不准确的......
  • 读数据湖仓04数据架构与数据工程
    1. 大容量存储器1.1. 几乎是到最后时刻,大容量存储器才被引入基础数据的基础设施中1.1.1. 分析人员通常不会直接在大容量存储器中进行数据分析1.1.2. 大容量存储器在基础数据中扮演的角色也特别重要,它能够在许多方面支持数据分析人员自由灵活地完成工作,也为数据湖仓的......
  • 题解 P2726 【[SHOI2005]树的双中心】
    首先,我们会有一个很简单的想法,枚举断边,产生两棵子树,然后在两棵树内分别求带权重心,计算贡献,这样的话复杂度是\(O(n^2)\)的。那么我们要好好利用$h\leq100$的性质。考虑\(sze[u]\)为带权重量,\(g[u]\)为以\(u\)为根的树,所有点都到\(u\)的代价。所以\(g[u]=\sum\l......
  • 05-LoadBalancer负载均衡
    1.Ribbon目前也进入维护模式1.1Ribbon介绍SpringCloudRibbon是基于NetflixRibbon实现的一套客户端负载均衡的工具。简单的说,Ribbon是Netflix发布的开源项目,主要功能是提供客户端的软件负载均衡算法和服务调用。Ribbon客户端组件提供一系列完善的配置项如连接超时,重试等。简......
  • Day05数据类型
    数据类型;1.强类型语言,要求变量的使用要严格符合规定,所有变量都必须先定义后才能使用;​JAVA就是强类型语言2.弱类型语言。八大数据类型注意:在表示long类型时,数后面有L表示float类型时,数后面有F字节位(bit):是计算机内部数据储存的最小单位,11001100......
  • (洛谷)题目题号P1047 [NOIP2005 普及组] 校门外的树
    Hello大家好我是小亦,这是今天发布的第二篇题解,唉我就在想怎么样才能把粉丝提上来呢隔壁朋友都比我高了好多唉苦恼qwq,好吧接受现实,好那么好今天我们来讲的是来自于NOIP2005年普及组的真题名叫:校门外的树,其实这道题跟其他几道题很相似,应该是同一家的吧qwq,好了不废话了思路给大家q......
  • P6105 [Ynoi2010] y-fast trie
    这可能也是一个关于匹配的经典trick。题意给定常数\(C\),你需要维护一个集合\(S\),支持以下操作:1x,加入数\(x\),保证\(x\)之前不存在。2x,删除数\(x\),保证\(x\)之前存在。每次操作后你需要回答$$\max_{i,j\inS,i\not=j}(i+j)\bmodC$$\(Q\le5\times10^5\),强制在......
  • 3805 谁拿了最多的奖学金 结构体排序
    解决思路 定义结构体:定义一个结构体 Student 来存储每个学生的信息和奖金总数。 读取输入:读取每个学生的信息,并计算每个学生的奖金总数。 3. 排序:根据奖金总数对学生进行排序,如果奖金总数相同,则按输入顺序排序。 输出结果:输出获得最多奖金的学生的姓名、奖金......
  • Python - [05] 爬虫
    题记部分 001||爬虫的工作原理(1)获取数据。爬虫程序会根据提供的网址,向服务器发起请求,然后返回数据。(2)解析数据。爬虫程序会把服务器返回的数据解析成我们能读懂的格式。(3)提取数据。爬虫程序再从中提取出我们需要的数据。(4)储存数据。爬虫程序把这些有用的数据保存起来,......