首页 > 其他分享 >读数据湖仓07描述性数据

读数据湖仓07描述性数据

时间:2024-10-05 08:54:14浏览次数:11  
标签:结构化 上下文 07 湖仓 读数据 描述性 情境 文本 数据

1. 描述性数据

1.1. 基础数据中包含不同类型的数据,而不同类型数据的描述性数据也存在显著的差异

1.2. 尽管这些描述性数据存在根本性的差异,但通过描述性数据,我们可以全面了解基础数据中的数据

1.3. 通过分析基础设施中提供的描述性数据可以获得更详细的数据

  • 1.3.1. 分析基础设施是通往详细数据的路线图

  • 1.3.2. 描述性数据会告诉分析人员如何定位所需数据,数据的含义,并指导其组合数据

1.4. 分析人员需要从分析基础设施入手

  • 1.4.1. 描述性数据能为各种分析人员提供帮助,包括数据科学家、业务分析人员、文员,甚至是管理人员

  • 1.4.2. 对任何希望使用基础数据的人来说,描述性数据都是非常有用的

1.5. 数据湖仓的基础数据是非常有价值的

  • 1.5.1. 数据湖仓中最基本的数据是集成到基础数据中的详细数据

  • 1.5.2. 仅有详细数据是不够的,还需要描述性数据,只有将详细数据和描述性数据结合起来,才能使数据湖仓发挥最大的作用

  • 1.5.3. 由于描述性数据描述了基础数据中的详细数据,因此分析人员可以轻松找到所需的详细数据

2. 结构化数据

2.1. 数据模型

  • 2.1.1. 数据模型是对基础数据中结构化数据的抽象表示

  • 2.1.2. 在实体关系图层级上,我们会定义组织的主要实体及其之间的关系

  • 2.1.3. 实体关系图的下一层级是数据项集,用于进一步描述实体

    • 2.1.3.1. 每个实体在实体关系图中都有一个对应的数据项集,其中包括键、属性以及实体之间的关系等

    • 2.1.3.2. 对于每一组数据项集,我们都可以找到其物理定义,包括实际定义、键标识、属性的名称、属性的结构以及索引

  • 2.1.4. 数据模型可以被视为对组织内结构化数据的一种抽象

    • 2.1.4.1. 因为数据可能很快变得非常复杂,抽象可以使得设计师和分析人员更好地访问和分析基础数据中的数据

2.2. 元数据

  • 2.2.1. 在对基础数据中的结构化数据进行基础设施分析时,元数据定义也是很重要的一个部分

  • 2.2.2. 元数据类似于数据模型的物理属性

  • 2.2.3. 元数据确实包含一些数据库管理系统(Database Management System,DBMS)特有的物理特征,这些特征并不包含在数据模型的较低层次中

  • 2.2.4. 在物理层面上,元数据包括数据库管理系统所描述数据的实际定义,例如键、属性和索引等要素

2.3. 结构化数据转换

  • 2.3.1. 名称转换

  • 2.3.2. 编码转换

  • 2.3.3. 度量单位转换

  • 2.3.4.  货币类型转换

  • 2.3.5. 计算转换

  • 2.3.6. 数据选择转换

2.4. 结构化数据源

  • 2.4.1. 在对结构化数据进行基础设施分析时,识别出结构化数据的数据源是其中非常重要的一个步骤

  • 2.4.2. 结构化数据的起始来源是事务数据,我们可以从不同的来源收集与事务相关的数据

  • 2.4.3. 事务数据可以来自不同的数据源

    • 2.4.3.1. 银行柜员活动

    • 2.4.3.2. 自动取款机活动

    • 2.4.3.3. 活期存款交易

    • 2.4.3.4. 航空公司订票

2.5. 数据选择标准

  • 2.5.1. 在对结构化数据进行基础设施分析时,确定数据筛选条件是其中最重要的部分之一

  • 2.5.2. 仅仅识别出需要使用的算法是不够的,还必须明确计算中包括和排除了哪些数据

  • 2.5.3. 使用基础数据进行分析的分析人员需要清楚了解参与计算的数据具体有哪些

2.6. 数据定义语言

  • 2.6.1. 数据定义语言(Data Definition Language,DDL)也是一个非常重要的部分

  • 2.6.2. 数据定义语言用于定义与数据库管理系统相关的数据库结构

  • 2.6.3. 数据定义语言始终包含对定义数据库有用的其他信息

2.7. 数据编码

  • 2.7.1. 编码是指保存在数据库中的有意义的值

2.8. 数据关系

  • 2.8.1. 应用程序支撑的关系

  • 2.8.2. 数据库管理系统支持的关系

  • 2.8.3. 隐含关系

  • 2.8.4. 显式关系

  • 2.8.5. 推理关系

2.9. 在结构化环境中,数据的上下文情境非常明确,主要体现在系统的结构中

  • 2.9.1. 对结构化环境来说,数据的上下文情境明确且显式存在于结构化数据的元数据中

  • 2.9.2. 在结构化环境中,数据的上下文情境由描述性数据本身的元数据提供

3. 文本数据

3.1. 支持文本数据和文本数据分析的描述性数据是一类重要的描述性数据

3.2. 文本环境并没有体现出明确的上下文情境

  • 3.2.1. 人们不会根据上下文情境说话,也不会根据明确的上下文情境写作

  • 3.2.2. 下文情境会隐式地嵌入语言

3.3. 文本数据中也存在上下文情境,但是文本环境中上下文情境的定义方式与结构化环境中的不同

  • 3.3.1. 要理解文本环境中的上下文情境,有必要先消除文本的歧义

  • 3.3.2. 在文本数据分析中,上下文情境与结构化环境中的上下文情境一样重要

3.4. 上下文情境在分析基础设施中扮演着非常重要的角色,可以帮助我们理解数据湖仓中的基础数据

3.5. 本体

  • 3.5.1. 文本数据的描述性数据的主要组成部分是本体

  • 3.5.2. 本体是由两个或多个相关分类标准的集合构成

  • 3.5.3. 一般来说,本体提供对业务或学科的完整描

  • 3.5.4. 通用本体主要包括通常使用的单词和术语,对通用术语而言,通用本体的主题并不重要

  • 3.5.5. 行业本体则包含特定行业的术语,例如,医疗行业有医疗术语,法律行业有法律术语,会计行业有会计术语等

  • 3.5.6. 定制本体包含企业特定的名称

3.6. 分类标准

  • 3.6.1. 文本数据还需要熟悉分类标准

  • 3.6.2. 分类标准仅仅是一个分类词组

  • 3.6.3. 在分类标准中,每个单词都与其他元素具有相同的类别关

  • 3.6.4. 分类标准是本体的一部分

  • 3.6.5. 本体的内容是异构的,而分类标准的内容是同质的

  • 3.6.6. 一个分类标准仅包含与该分类关系相同的分类数据

  • 3.6.7. 与本体不同,分类标准的内容是同质的

  • 3.6.8. 仅仅依靠本体和分类标准进行文本分析是不够的,文本分析还有很多其他要求

3.7. 关联

  • 3.7.1. 文本消歧需要一个元素,那就是寻找隐含在文本中的业务规则

    • 3.7.1.1. 这种形式的业务规则被称为关联

3.8. 上下文情境

  • 3.8.1. 与业务规则相关的是上下文情境的处理过程,而上下文情境则是文本消歧的本体和分类标准解决方案的必要组成部分

  • 3.8.2. 通过将本体和分类标准作为指南,可以消除许多文本的歧义,但是很多其他形式的文本并没有采用本体和分类标准

  • 3.8.3. 法律合同和实验室报告就是典型的非自由格式文本

    • 3.8.3.1. 单词的含义通常需要通过文本数据的上下文情境进行推导

3.9. 文本数据源

  • 3.9.1. 语音对话

    • 3.9.1.1. 语音对话需要进行转录,并且在此过程中往往会损失一定程度的准确性
  • 3.9.2. 电子邮件

    • 3.9.2.1. 电子邮件则依赖对垃圾邮件的过滤能力,以及清理和删除系统开销数据的能力

    • 3.9.2.2. 如果不对垃圾邮件进行过滤,电子邮件流的大小将不断增长,最终难以处理

  • 3.9.3. 印刷资料

    • 3.9.3.1. 印刷资料需要通过光学字符识别进行转录,而其准确性与油墨打印的清晰度、字体以及纸张的稳定性等多种因素有关
  • 3.9.4. 电子文本

  • 3.9.5. 互联网

    • 3.9.5.1. 互联网取决于互联网数据所在的站点,每个互联网站点都是不同的,并且会经常发生变化
  • 3.9.6. 每一种文本数据来源都有自己的特点

4. 模拟/物联网数据

4.1. 尽管大多数机器的监测数据都不重要,但偶尔也会出现引起人们极大兴趣的模拟/物联网数据

4.2. 需要进行数据蒸馏,将乏味的数据与有趣的数据分离开

4.3. 算法

  • 4.3.1. 蒸馏算法是一种特别有趣的算法,这种算法具有智能,可以用于判断模拟/物联网数据是否有用

4.4. 阈值

  • 4.4.1. 除了用于分离模拟/物联网数据的算法以外,将定义的数据阈值作为参数进行进一步分析也很有意义

  • 4.4.2. 算法的阈值决定了将记录写入访问文件的边界

  • 4.4.3. 偶尔会出现超出正常范围的测量值,测量值可能过高或过低

    • 4.4.3.1. 异常的记录将被写入访问概率较高的文件

    • 4.4.3.2. 记录是否被写入则取决于所设置的算法阈值

4.5. 时间排序

  • 4.5.1. 时间排序方法可能会采集到分析人员感兴趣的模拟/物联网数据

  • 4.5.2. 分析人员可以为预期的、感兴趣的活动选择一个时间段,在这个时间段内发生的所有记录都会被采集

  • 4.5.3. 与依靠预先设定阈值不同,分析人员也可以通过使用时间排序方法来监控活动

4.6. 数据源

  • 4.6.1. 某些机器以一种速度收集数据

  • 4.6.2. 其他机器则可能以另一种速度收集数据

  • 4.6.3. 某些机器具有很高的精度

  • 4.6.4. 有些机器的精度则很低

  • 4.6.5. 采用一种测量方法来收集数据

  • 4.6.6. 使用不同的测量方法

5. 数据血缘

5.1. 所有不同类型的数据都包含能够反映数据血缘的数据

5.2. 在组织中,数据从一个数据库流向另一个数据库是很常见的现象

5.3. 对使用数据湖仓基础数据进行工作的分析人员来说,数据血缘是非常有用的

标签:结构化,上下文,07,湖仓,读数据,描述性,情境,文本,数据
From: https://www.cnblogs.com/lying7/p/18442042

相关文章

  • P4170 [CQOI2007] 涂色
    算法看完题目不好想到思路逆向思维,考虑从目标串刷成一个由全部相等的颜色组成的串由于一刷刷一堆想到区间状态设\(dp_{l,r}\)表示区间\([l,r]\)的最少涂抹次数状态转移分类讨论\(S_l=S_r\text{且}l<r\)此时分别去掉两个端点,观察发现设覆盖了\(l\)......
  • Day07-09英语
    Day07-09英语ByteDance字节跳动GPUgraphicsprocessingunit,图形处理器,是一种专门在电子产品上进行图像运算工作的微处理器。primitiveadj.原始的;基本的primitivetype基本类型variable......
  • [lnsyoj2378/luoguAT_arc107_d]Number of Multisets
    题意给出两个正整数\(N,K\),求有多少有理数集满足以下所有条件集合有且只有\(N\)个元素,并且元素和为\(K\);每个元素须可表示为\( \frac{1}{2^{i}}\) $(i\inN)$.sol考虑dp,容易想到记\(f_{i,j}\)表示选\(i\)个数恰好和为\(j\)考虑到会出现诸如\(\dfrac{1}......
  • 代码随想录算法训练营day3|● 203.移除链表元素 ● 707.设计链表 ● 206.反转链表
    学习资料:https://programmercarl.com/链表理论基础.html#链表的类型可设置虚拟头结点dummy_head链表最后指向Null一个节点包含值和索引学习记录:203.移除链表元素(基本ListNode(),cur.next,cur.next.val)点击查看代码#Definitionforsingly-linkedlist.#classListNod......
  • [题解]P7077 [CSP-S2020] 函数调用
    P7077[CSP-S2020]函数调用题意简述给定一个长度为\(n\)的序列\(a_1,a_2,\dots,a_n\),给定\(m\)个函数,每个函数可能是下面\(3\)种类型,用\(T_x\)表示函数\(x\)的类型:\(T_x=1\),对下标\(p\)增加\(v\)。\(T_x=2\),对所有元素乘\(v\)。\(T_x=3\),由若干类型\(1\)和类型\(2\)组成......
  • 读数据湖仓06数据集成
    1. 数据湖仓中的数据集成1.1. 数据湖仓的总体目标是为每一个人提供支持,包括从普通职员到CEO1.2. 有了作为基础设施的基础数据,企业等组织才能实现真正的数据驱动1.3. 提供组织所需的数据,最关键的一环在于提供集成的数据基础1.3.1. 只将数据扔进数据湖仓就指望它能满足......
  • 读数据湖仓05数据需要的层次
    1. 业务价值1.1. 技术和商业在这个世界上是相互交织的1.1.1. 基础数据在商业和技术应用中是不可或缺的1.2. 技术的存在是为了推动商业的目标和进步,并由企业出资支持1.2.1. 当技术推动商业发展时,商业会蓬勃发展,技术也会随之繁荣1.2.2. 当技术发展偏离这个基本模......
  • 读数据湖仓04数据架构与数据工程
    1. 大容量存储器1.1. 几乎是到最后时刻,大容量存储器才被引入基础数据的基础设施中1.1.1. 分析人员通常不会直接在大容量存储器中进行数据分析1.1.2. 大容量存储器在基础数据中扮演的角色也特别重要,它能够在许多方面支持数据分析人员自由灵活地完成工作,也为数据湖仓的......
  • Day07——数据类型
    数据类型1.强类型语言,要求变量的使用要严格符合规定,所有变量都必须先定义后才能使用;​JAVA就是强类型语言2.弱类型语言。八大数据类型注意:在表示long类型时,数后面有L表示float类型时,数后面有F或f字符单个字,用单引号引用;字符串用双引号引用......
  • Leetcode 1907 按分类统计薪水
    一、题目查询每个工资类别的银行账户数量。 工资类别如下:"LowSalary":所有工资 严格低于 20000 美元。"AverageSalary": 包含 范围内的所有工资 [$20000, $50000] 。"HighSalary":所有工资 严格大于 50000 美元。结果表 必须 包含所有三个类别。 如果某个类......