首页 > 其他分享 >数据科学理论与实践——期末复习(简单版)

数据科学理论与实践——期末复习(简单版)

时间:2024-05-23 23:30:10浏览次数:24  
标签:范式 复习 实践 Hadoop 可视化 科学 期末 数据 标注

参考:数据科学理论与实践(第3版)朝乐门 编著

大数据时代的本质

新技术的不断涌现、人类的数据能力提升、人类进入数据富足时代

(大数据时代≈数据富足时代,大数据≈新数据)

数据

大数据含义(4v)

速度快:数据增长速度快,数据处理的时间要求高

数据量大:相对于计算与存储能力,数据量大

价值密度低:数据价值与数据量之间不一定存在线性关系

类型多:结构化、非结构化、半结构化等

数据打磨:将“原始数据”转换为“一次数据”(或“二次数据”)的过程

大数据挑战——“新数据”与“老知识”之间的矛盾日益突出

大数据时代的10大变革

数据科学的定义

数据科学≈大数据科学(+小数据科学)

数据科学研究目的与任务

大数据及其运动规律的揭示

从数据到智慧的转化

数据洞见

数据业务化

(大)数据分析及呈现

数据驱动决策(支持)

数据产品的研发

数据生态系统的建设

基本原则(与其他学科的重要区别)

1. 三世界原则

精神世界、物理世界、数据世界·

研究范式:

     (1)实验科学范式

     (2)理论科学范式

     (3)计算科学范式

     (4)数据密集型科学发现范式——Jim Gray提出第四范式

2. 三要素原则

理论、实践、精神(3C精神:创造性的工作、批判性思考、好奇性提问)

3. 数据范式原则

数据直接解决问题(数据->问题),不是数据->知识->问题

数据量足够大,可直接通过数据洞见,实现问题解决(历史经验主义)

4. 数据复杂性原则

复杂性->大数据不可分离的属性

发现传统数据处理方式普遍存在“信息丢失”现象->

“模式先、数据后范式”   (转换成)  “数据先、模式后范式”/“数据先、无模式范式”

5. 数据资产原则

数据不仅是“资源”还是“资产”

具有劳动增值、法律权属、财务价值、市场与产业、道德与伦理、其他属性(是数科重要研究课题之一)

数据科学的研究目的(DIKUW):实现数据信息知识理解智慧

6. 数据驱动原则

数据是业务、决策、战略、市场甚至组织结构变化的主要驱动因素

7. 协同原则

数据科学涉及领域多,对每个领域知识、经验要求高,难找到人才/成本高

关注如何合理配置数据科学团队问题/如何实现不同数据科学家的优势互补

另,还强调人机合作及如何充分调动来自机构数据链长尾的“专家余”的积极性

人机协同+人际协同+机器协同

协同≠(传统)团队

8. 从简原则

对“智能的实现方式”有了新认识从“基于算法的智能”到“基于数据的智能”的过渡

“基于数据的智能”的重要特点是“数据复杂,但算法简单”

更多数据+简单算法=最好的数据模型

数据科学理论体系

人才类型

1. 数据科学家

2. 数据工程师

3. 数据分析师

数据化:指捕获人们的生活、业务或社会活动,并将其转换为数据的过程。

数据加工是一种增值过程

数据加工往往会导致信息丢失/扭曲现象的出现(尽量减少)

数据产品:能够通过数据来帮助用户实现某一个(些)目标的产品

数据分析三类型及其内在联系

描述性分析:数据信息

预测性分析:信息知识

规范性分析:知识智慧

数据清洗:指在数据审计的基础上,将“脏数据”清洗成“干净数据”的过程

脏数据:指在数据审计活动中发现有质量问题的数据。eg:缺失数据、冗余数据(重复、无关……)、噪声数据(错误、虚假、异常……)

一次数据清洗后得到的不一定是干净数据(有时需多次清洗才能清洗干净)

数据集成(不懂就看p109例子)

数据集成的基本类型(2种)

内容集成(目标数据集的结构与来源数据集结构相等)

结构集成(目标数据集的结构与来源数据集结构不同)

数据集成中需要注意的三个基本问题:

1, 模式集成

2, 数据冗余

3, 冲突检测与消除

数据脱敏:是在不影响数据分析结果准确性的前提下,对原始数据进行一定的变换操作,对其中的个人/组织敏感数据进行替换/删除操作,降低信息的敏感性,避免相关主体的信息安全隐患和个人隐私问题

数据脱敏必须满足三个要求: 1.单向性 2.无残留 3.易于实现

数据审计:指按数据质量的一般规律与评价方法,对数据内容及其元数据进行审计,发现其中存在的“问题”

1. 预定义审计

2. 自定义审计

3. 可视化审计

数据分析(从复杂度及价值高低两个维度分为四种)

1. 描述性分析(主要关注“过去”,回答“已发生了什么”)

2. 诊断性分析(主要关注“过去”,回答“为什么发生”)

3. 预测性分析(主要关注“未来”,回答“将要发生什么”)

4. 规范性分析(主要关注“模拟与优化”,即“如何从即将发生的事情中受惠”以及“如何优化将要发生的事情”)

数据可视化

狭义上,数据可视化是与科学可视化、信息可视化、可是分析学平行的概念

广义上,数据可视化包含三类可视化技术:

  1. 科学可视化
  2. 信息可视化
  3. 可视化分析学

数据可视化与数据故事化的区别与联系

数据标注:主要目的是通过对目标数据补充必要的词性、颜色、纹理、形状、关键字或语义信息等标签类元数据,提高其检索、洞察、分析和挖掘的效果与效率。

按标注活动的自动化程度,数据标注可分为手工标注、自动化标注和半自动化标注。

从标注的实现层次看,数据标注可分为:语法标注、语义标注

数据科学项目中的主要角色及其任务

项目≠(日常)工作

MapReduce将复杂的、运行于大规模集群上的并行计算过程

高度地抽象到了两个函数:Map和Reduce

不同的Map任务之间不会进行通信

不同的Reduce任务之间也不会发生任何信息交换

用户不能显式地从一合机器向另一合机器发送消息

所有的数据交换都是通过MapReduce框架自身去实现

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,

为用户提供了系统底层细节透明的分布式基础架构

Hadoop的核心是分布式文件系统、HDES、MapReduce

Hadoop项目结构丰富发展,已经形成一个丰富的Hadoop生态系统

Spark

Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的,低延迟的数据分析应用程序

park用十分之一的计算资源,获得了比Hadoop快3倍的速度

Scala是一门现代的多范式编程语言,运行于Java平台(JVM,Java虚拟机)并兼容现有的Java程序

标签:范式,复习,实践,Hadoop,可视化,科学,期末,数据,标注
From: https://blog.csdn.net/siri__iiiii/article/details/139159796

相关文章

  • 算法设计与分析---动态规划(期末)
    1.基本要素 最优子结构-->一个问题的解包含子问题的最优解重叠子问题-->子问题被反复计算2.动态规划和分治区别两者都是把大问题转换成小问题/子问题来解决,并且当最优子问题组合成最优大问题。区别1:解决问题的类型动态规划主要用于解决优化问题,即寻找满足一定条件的最优解......
  • pytorch-20 lstm实践
    一、LSTM预测类型数据类型:单变量、多变量与面板数据数据处理(滑窗方式):单变量有seq2seq,seq2point;多变量:特征滑窗,带标签滑窗1.数据类型:单变量、多变量与面板数据在时间序列的世界中,除了最常见的单变量时间序列之外,我们还有多变量时间序列数据和面板数据两种复杂经典数据结......
  • ES数据迁移工具介绍及最佳实践
    一、项目背景由于项目升级需要将es索引迁移,从es版本看是从elasticsearch-5.6.6版本迁移到elasticsearch-7.17.5版本中,因之前其他项目采用elasticdump工具迁移,有过成功经验,所以首先借鉴其经验采用elasticdump工具来实现。注意:由于网络、服务器性能等的关系,elasticdump工具在索......
  • 基于 Prometheus 的超算弹性计算场景下主机监控最佳实践
    作者:左知超算场景的业务特点主机监控,或许是监控/可观测领域最传统和普遍的需求。在超算训练,AI大规模训练的业务场景下,主机监控又有哪些痛点和难点呢?根据我们针对多个大规模超算客户的需求整理,超算场景的特点主要集中在如下几个方面:大规模计算超算擅长处理可并行化的计算问题,......
  • 项目管理工具与实践的创新融合
    项目管理是确保项目成功完成的关键学科,它涵盖了从项目启动到项目结束的各个阶段。随着技术的发展,项目管理工具也在不断进步,以满足日益复杂的项目需求。本文将探讨zz-plan这款在线甘特图协作软件如何与现代项目管理实践相结合,提供全面的项目管理解决方案。项目管理的定义与重要性......
  • 振弦采集仪在岩土工程边坡稳定性监测中的实践与案例分析
    振弦采集仪在岩土工程边坡稳定性监测中的实践与案例分析河北稳控科技振弦采集仪是一种用于岩土工程边坡稳定性监测的仪器设备,用于采集边坡体动力特性参数,能够对边坡的稳定性进行实时监测和预警。在实践中,振弦采集仪已经被广泛应用于岩土工程边坡稳定性监测中,并取得了良好的效果。......
  • 14个Flink SQL性能优化实践分享
    本文分享自华为云社区《FlinkSQL性能优化实践》 ,作者:超梦。在大数据处理领域,ApacheFlink以其流处理和批处理一体化的能力,成为许多企业的首选。然而,随着数据量的增长,性能优化变得至关重要。本文将深入浅出地探讨FlinkSQL的常见性能问题、调优方法、易错点及调优技巧,并提供代码......
  • 第一阶段复习——基础动态规划
    背包知识点总结:01背包、完全背包的转移方程滚动数组和倒序初始化问题:完全放满和不一定放满多重背包二进制优化,边界问题。处理完之后跑完全背包。“在这一讲中,我们看到了将一个算法的复杂度由O(VΣMi)改进到O(VΣlogMi)的过程,还知道了存在复杂度为O(VN)的算法。”单......
  • .NetCore源码阅读笔记系列之Security (二) 自定义认证实践
    通过前面对AddCookie或者 AddOpenIdConnect等了解,其实里面都实现了一个AuthenticationHandler<TOptions>的认证处理,接下来我们来简单自定义一个试试首先我来实现下面这个方式,我添加了一个AddLIYOUMING()services.AddAuthentication(options=>{......
  • 架构理解:从理论到实践的深度探索
    架构理解:从理论到实践的深度探索石家庄铁道大学,河北省,石家庄市,赵金荣摘要:本文旨在深入探讨软件架构的概念、重要性及其在现代软件开发中的核心作用,特别参考了王概凯先生在其“架构漫谈”系列中的见解与实践案例。通过分析软件架构的基本原则、设计模式、决策因素以及面对挑战......