参考:数据科学理论与实践(第3版)朝乐门 编著
大数据时代的本质
新技术的不断涌现、人类的数据能力提升、人类进入数据富足时代
(大数据时代≈数据富足时代,大数据≈新数据)
数据
大数据含义(4v)
速度快:数据增长速度快,数据处理的时间要求高
数据量大:相对于计算与存储能力,数据量大
价值密度低:数据价值与数据量之间不一定存在线性关系
类型多:结构化、非结构化、半结构化等
数据打磨:将“原始数据”转换为“一次数据”(或“二次数据”)的过程
大数据挑战——“新数据”与“老知识”之间的矛盾日益突出
大数据时代的10大变革
数据科学的定义
数据科学≈大数据科学(+小数据科学)
数据科学研究目的与任务
大数据及其运动规律的揭示
从数据到智慧的转化
数据洞见
数据业务化
(大)数据分析及呈现
数据驱动决策(支持)
数据产品的研发
数据生态系统的建设
基本原则(与其他学科的重要区别)
1. 三世界原则
精神世界、物理世界、数据世界·
研究范式:
(1)实验科学范式
(2)理论科学范式
(3)计算科学范式
(4)数据密集型科学发现范式——Jim Gray提出第四范式
2. 三要素原则
理论、实践、精神(3C精神:创造性的工作、批判性思考、好奇性提问)
3. 数据范式原则
数据直接解决问题(数据->问题),不是数据->知识->问题
数据量足够大,可直接通过数据洞见,实现问题解决(历史经验主义)
4. 数据复杂性原则
复杂性->大数据不可分离的属性
发现传统数据处理方式普遍存在“信息丢失”现象->
“模式先、数据后范式” (转换成) “数据先、模式后范式”/“数据先、无模式范式”
5. 数据资产原则
数据不仅是“资源”还是“资产”
具有劳动增值、法律权属、财务价值、市场与产业、道德与伦理、其他属性(是数科重要研究课题之一)
数据科学的研究目的(DIKUW):实现数据信息知识理解智慧
6. 数据驱动原则
数据是业务、决策、战略、市场甚至组织结构变化的主要驱动因素
7. 协同原则
数据科学涉及领域多,对每个领域知识、经验要求高,难找到人才/成本高
关注如何合理配置数据科学团队问题/如何实现不同数据科学家的优势互补
另,还强调人机合作及如何充分调动来自机构数据链长尾的“专家余”的积极性
人机协同+人际协同+机器协同
协同≠(传统)团队
8. 从简原则
对“智能的实现方式”有了新认识从“基于算法的智能”到“基于数据的智能”的过渡
“基于数据的智能”的重要特点是“数据复杂,但算法简单”
更多数据+简单算法=最好的数据模型
数据科学理论体系
人才类型
1. 数据科学家
2. 数据工程师
3. 数据分析师
数据化:指捕获人们的生活、业务或社会活动,并将其转换为数据的过程。
数据加工是一种增值过程
数据加工往往会导致信息丢失/扭曲现象的出现(尽量减少)
数据产品:能够通过数据来帮助用户实现某一个(些)目标的产品
数据分析三类型及其内在联系
描述性分析:数据信息
预测性分析:信息知识
规范性分析:知识智慧
数据清洗:指在数据审计的基础上,将“脏数据”清洗成“干净数据”的过程
脏数据:指在数据审计活动中发现有质量问题的数据。eg:缺失数据、冗余数据(重复、无关……)、噪声数据(错误、虚假、异常……)
一次数据清洗后得到的不一定是干净数据(有时需多次清洗才能清洗干净)
数据集成(不懂就看p109例子)
数据集成的基本类型(2种)
内容集成(目标数据集的结构与来源数据集结构相等)
结构集成(目标数据集的结构与来源数据集结构不同)
数据集成中需要注意的三个基本问题:
1, 模式集成
2, 数据冗余
3, 冲突检测与消除
数据脱敏:是在不影响数据分析结果准确性的前提下,对原始数据进行一定的变换操作,对其中的个人/组织敏感数据进行替换/删除操作,降低信息的敏感性,避免相关主体的信息安全隐患和个人隐私问题
数据脱敏必须满足三个要求: 1.单向性 2.无残留 3.易于实现
数据审计:指按数据质量的一般规律与评价方法,对数据内容及其元数据进行审计,发现其中存在的“问题”
1. 预定义审计
2. 自定义审计
3. 可视化审计
数据分析(从复杂度及价值高低两个维度分为四种)
1. 描述性分析(主要关注“过去”,回答“已发生了什么”)
2. 诊断性分析(主要关注“过去”,回答“为什么发生”)
3. 预测性分析(主要关注“未来”,回答“将要发生什么”)
4. 规范性分析(主要关注“模拟与优化”,即“如何从即将发生的事情中受惠”以及“如何优化将要发生的事情”)
数据可视化
狭义上,数据可视化是与科学可视化、信息可视化、可是分析学平行的概念
广义上,数据可视化包含三类可视化技术:
- 科学可视化
- 信息可视化
- 可视化分析学
数据可视化与数据故事化的区别与联系
数据标注:主要目的是通过对目标数据补充必要的词性、颜色、纹理、形状、关键字或语义信息等标签类元数据,提高其检索、洞察、分析和挖掘的效果与效率。
按标注活动的自动化程度,数据标注可分为手工标注、自动化标注和半自动化标注。
从标注的实现层次看,数据标注可分为:语法标注、语义标注
数据科学项目中的主要角色及其任务
项目≠(日常)工作
MapReduce将复杂的、运行于大规模集群上的并行计算过程
高度地抽象到了两个函数:Map和Reduce
不同的Map任务之间不会进行通信
不同的Reduce任务之间也不会发生任何信息交换
用户不能显式地从一合机器向另一合机器发送消息
所有的数据交换都是通过MapReduce框架自身去实现
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,
为用户提供了系统底层细节透明的分布式基础架构
Hadoop的核心是分布式文件系统、HDES、MapReduce
Hadoop项目结构丰富发展,已经形成一个丰富的Hadoop生态系统
Spark
Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的,低延迟的数据分析应用程序
park用十分之一的计算资源,获得了比Hadoop快3倍的速度
Scala是一门现代的多范式编程语言,运行于Java平台(JVM,Java虚拟机)并兼容现有的Java程序
标签:范式,复习,实践,Hadoop,可视化,科学,期末,数据,标注 From: https://blog.csdn.net/siri__iiiii/article/details/139159796