数据科学理论与实践——期末复习（简单版）

标签：范式复习实践 Hadoop 可视化科学期末数据标注

参考：数据科学理论与实践（第3版）朝乐门编著

大数据时代的本质

新技术的不断涌现、人类的数据能力提升、人类进入数据富足时代

（大数据时代≈数据富足时代，大数据≈新数据）

数据

大数据含义（4v）

速度快：数据增长速度快，数据处理的时间要求高

数据量大：相对于计算与存储能力，数据量大

价值密度低：数据价值与数据量之间不一定存在线性关系

类型多：结构化、非结构化、半结构化等

数据打磨：将“原始数据”转换为“一次数据”(或“二次数据”）的过程

大数据挑战——“新数据”与“老知识”之间的矛盾日益突出

大数据时代的10大变革

数据科学的定义

数据科学≈大数据科学（+小数据科学）

数据科学研究目的与任务

大数据及其运动规律的揭示

从数据到智慧的转化

数据洞见

数据业务化

（大）数据分析及呈现

数据驱动决策（支持）

数据产品的研发

数据生态系统的建设

基本原则（与其他学科的重要区别）

1. 三世界原则

精神世界、物理世界、数据世界·

研究范式：

（1）实验科学范式

（2）理论科学范式

（3）计算科学范式

（4）数据密集型科学发现范式——Jim Gray提出第四范式

2. 三要素原则

理论、实践、精神（3C精神：创造性的工作、批判性思考、好奇性提问）

3. 数据范式原则

数据直接解决问题（数据->问题），不是数据->知识->问题

数据量足够大，可直接通过数据洞见，实现问题解决（历史经验主义）

4. 数据复杂性原则

复杂性->大数据不可分离的属性

发现传统数据处理方式普遍存在“信息丢失”现象->

“模式先、数据后范式” （转换成） “数据先、模式后范式”/“数据先、无模式范式”

5. 数据资产原则

数据不仅是“资源”还是“资产”

具有劳动增值、法律权属、财务价值、市场与产业、道德与伦理、其他属性（是数科重要研究课题之一）

数据科学的研究目的（DIKUW）：实现数据信息知识理解智慧

6. 数据驱动原则

数据是业务、决策、战略、市场甚至组织结构变化的主要驱动因素

7. 协同原则

数据科学涉及领域多，对每个领域知识、经验要求高，难找到人才/成本高

关注如何合理配置数据科学团队问题/如何实现不同数据科学家的优势互补

另，还强调人机合作及如何充分调动来自机构数据链长尾的“专家余”的积极性

人机协同+人际协同+机器协同

协同≠（传统）团队

8. 从简原则

对“智能的实现方式”有了新认识从“基于算法的智能”到“基于数据的智能”的过渡

“基于数据的智能”的重要特点是“数据复杂，但算法简单”

更多数据+简单算法=最好的数据模型

数据科学理论体系

人才类型

1. 数据科学家

2. 数据工程师

3. 数据分析师

数据化：指捕获人们的生活、业务或社会活动，并将其转换为数据的过程。

数据加工是一种增值过程

数据加工往往会导致信息丢失/扭曲现象的出现（尽量减少）

数据产品：能够通过数据来帮助用户实现某一个（些）目标的产品

数据分析三类型及其内在联系

描述性分析：数据信息

预测性分析：信息知识

规范性分析：知识智慧

数据清洗：指在数据审计的基础上，将“脏数据”清洗成“干净数据”的过程

脏数据：指在数据审计活动中发现有质量问题的数据。eg：缺失数据、冗余数据（重复、无关……）、噪声数据（错误、虚假、异常……）

一次数据清洗后得到的不一定是干净数据（有时需多次清洗才能清洗干净）

数据集成（不懂就看p109例子）

数据集成的基本类型（2种）

内容集成（目标数据集的结构与来源数据集结构相等）

结构集成（目标数据集的结构与来源数据集结构不同）

数据集成中需要注意的三个基本问题：

1，模式集成

2，数据冗余

3，冲突检测与消除

数据脱敏：是在不影响数据分析结果准确性的前提下，对原始数据进行一定的变换操作，对其中的个人/组织敏感数据进行替换/删除操作，降低信息的敏感性，避免相关主体的信息安全隐患和个人隐私问题

数据脱敏必须满足三个要求： 1.单向性 2.无残留 3.易于实现

数据审计：指按数据质量的一般规律与评价方法，对数据内容及其元数据进行审计，发现其中存在的“问题”

1. 预定义审计

2. 自定义审计

3. 可视化审计

数据分析（从复杂度及价值高低两个维度分为四种）

1. 描述性分析（主要关注“过去”，回答“已发生了什么”）

2. 诊断性分析（主要关注“过去”，回答“为什么发生”）

3. 预测性分析（主要关注“未来”，回答“将要发生什么”）

4. 规范性分析（主要关注“模拟与优化”，即“如何从即将发生的事情中受惠”以及“如何优化将要发生的事情”）

数据可视化

狭义上，数据可视化是与科学可视化、信息可视化、可是分析学平行的概念

广义上，数据可视化包含三类可视化技术：

科学可视化
信息可视化
可视化分析学

数据可视化与数据故事化的区别与联系

数据标注：主要目的是通过对目标数据补充必要的词性、颜色、纹理、形状、关键字或语义信息等标签类元数据，提高其检索、洞察、分析和挖掘的效果与效率。

按标注活动的自动化程度，数据标注可分为手工标注、自动化标注和半自动化标注。

从标注的实现层次看，数据标注可分为：语法标注、语义标注

数据科学项目中的主要角色及其任务

项目≠（日常）工作

MapReduce将复杂的、运行于大规模集群上的并行计算过程

高度地抽象到了两个函数：Map和Reduce

不同的Map任务之间不会进行通信

不同的Reduce任务之间也不会发生任何信息交换

用户不能显式地从一合机器向另一合机器发送消息

所有的数据交换都是通过MapReduce框架自身去实现

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台，

为用户提供了系统底层细节透明的分布式基础架构

Hadoop的核心是分布式文件系统、HDES、MapReduce

Hadoop项目结构丰富发展，已经形成一个丰富的Hadoop生态系统

Spark

Spark最初由美国加州伯克利大学的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的，低延迟的数据分析应用程序

park用十分之一的计算资源，获得了比Hadoop快3倍的速度

Scala是一门现代的多范式编程语言，运行于Java平台(JVM，Java虚拟机）并兼容现有的Java程序

标签：范式,复习,实践,Hadoop,可视化,科学,期末,数据,标注
From： https://blog.csdn.net/siri__iiiii/article/details/139159796

数据科学理论与实践——期末复习（简单版）

相关文章

赞助商

阅读排行