《商务智能管理视角》——（四）数据挖掘（1）

时间：2023-01-10 21:43:45浏览次数：33

1.数据挖掘定义

简单地说，数据挖掘这个名词是指从海量数据中发现或“挖掘”知识，人们很容易发现数据挖掘用词不当，打个比方说，从泥土和岩石中挖掘金子成为掘“金”，而不是“泥土”挖掘或“岩石”挖掘。因此，数据挖掘可能应该被称为“知识挖掘”或“知识发现”，尽管这个名词也和它的实际含义并不匹配，但大家还是选择了数据挖掘这个术语。还有很多其他名词也和数据挖掘有关，包括知识提取，模式分析，数据考古，信息采集，模式搜索和数据捕捞。

严格来说，数据挖掘是一个应用统计学，数学和人工智能技术从大数据集中提取和识别有用信息以及随之而产生的知识的过程。这些模式的表现形式可以是业务规则，类同关系，关联关系，趋势或预测模型。大多数文献将数据挖掘定义为“从结构化数据库中识别出合理的、新颖的、可能有用的、并且最终可理解的模式的一个非简单过程。”

2.数据分类

数据┐

├分类数据（离散数据）

│ ├名目数据：真/假；单身/已婚/离异；亚洲/欧洲/美洲;……

│ └序数数据：儿童/青年/中年/老年；小学/中学/大学；低/中/高；……

├数值数据（连续数据）

│ ├区间数据：温度（-273.15~100）；年龄（0~150）；……

│ └比例数据：地图比例；百分比；……

└其他数控（时间；文本；图形；图像……）

3.数据挖掘任务

数据挖掘任务：预测，关联，聚类

数据挖掘任务分类体系：

数据挖掘

├预测

│ ├分类

│ └回归

├关联

│ ├链接分析

│ └序列分析

└聚类

└孤立点分析

数据挖掘			学习方式	流行算法
	预测		有监督的	分类回归树，ANN，SVM，遗传算法
		分类	有监督的	决策树，ANN/MLP，粗糙集，SVM，遗传算法
		回归	有监督的	线性/非线性回归，回归树，ANN/MLP，SVM
	关联		无监督的	Apriori，OneR，ZeroR，Eclat
		链接分析	无监督的	期望最大化Apriori算法，基于图的匹配算法
		序列分析	无监督的	Apriori算法，FP-Grouth技术
	聚类		无监督的	K-均值，ANN/SOM
		孤立点分析	无监督的	K-均值，最大期望

数据挖掘跨行业标准流程（Cross Industry Standard Process for Data MinningCRISP-DM）

数据挖掘流程：理解业务，理解数据，准备数据，数据建模，测试评估，部署

准备数据

实际数据

↓

数据整合（收集，筛选，集成）

↓

数据清洗（估算缺失值，减低数据噪音，消除不一致）

↓

数据转换（数据标准化，，数据聚集/离散，构造新属性）

↓

数据简化（减少变量数量，减少实例数量，平衡偏斜数据）

↓

良好数据

另一种挖掘方法和流程：SEMMA

SEMMA（抽样(Sample)，探索(Explore)，修正(Modify)，建模(Model)，分析(Assecc)）

抽样：产生数据代表样本

探索：数据基本描述和可视化

修正：选取变量和变量格式转换

建模：应用各种统计和机器学习模型

分析：估计模型可用性和精确度

CRISP-DM 与 SEMMA

CRISP-DM采用的方法更为全面，包括对数据挖掘项目相关业务和数据的理解；

SEMMA 则隐含假设数据挖掘项目的目标及其恰当数据源已经被识别和理解。

数据库中的知识发现（Knowledge Discovery in Database，KDD）

KDD步骤：数据筛选，数据预处理，数据转换，数据挖掘和解释/评估

标签：视角,ANN,分类,挖掘,智能,监督,数据挖掘,数据
From： https://blog.51cto.com/hzc2012/6000687

《商务智能管理视角》——（三）数据仓库（2）
1.数据集成数据集成包括3个重要阶段，一旦数据集成成功，数据和ETL、分析工具和数据仓库环境均可被访问。这3个阶段分别是：数据访问，也就是从数据源中访问和提取数据的能力；数据合......
《商务智能管理视角》——（二）数据仓库（1）
1.数据仓库的定义和概念实时数据仓库（Real-timeDataWarehousing,RDW）、决策支持系统（DecisionSupportSystem,DSS）以及商务智能技术综合运用是一种重要的梳理业务流程的手段。......
《商务智能管理视角》——（一）商务智能简介
1.BI的定义商务智能是个概括性术语，它包括了构架、工具、数据库、分析工具、应用和方法论。这是一个无内容表述，所以对于不同的人意味着不同的含义。关于商务智能的......
cpp之智能指针
1.介绍本文介绍智能指针的使用。智能指针是c++中管理资源的一种方式，用智能指针管理资源，不必担心资源泄露，将c++程序员从指针和内存管理中解脱出来，再者，这也是c++发展的趋......
SOLIDWORKS 2023工程图和出详图新功能创建更智能化更高精度的工程详图
工程图是传达您设计意图的重要文档，您设计的产品越复杂，越需要详细注释说明。SOLIDWORKS2023增强的工程图和出详图功能将帮助您创建更智能化、更高精度的工程详图，并且扩展新......
vr施工安全体验软件提供沉浸式第一视角，切身感受事故危害
在建筑工地中，安全问题无处不在，事故也是时有发生，一般安全教育培训是需要投入大量人力、物力、财力，许多企业为了节约成本不会时常开展，而且很多企业把培训工作当成形式主义的......
养鱼出现“浮头”、死亡？遥控开关的智能养殖高效、生态、安全的特性
随着我国水土流失日益严重，土地资源严重紧缺，水产养殖池塘已经成为一种趋势，但由于现代气候突变现象日益发生，效益下降等问题突出，如何提高养殖产品品质，直接增加了渔民的经济收入......
养鱼出现“浮头”、死亡？遥控开关的智能养殖高效、生态、安全的特性
随着我国水土流失日益严重，土地资源严重紧缺，水产养殖池塘已经成为一种趋势，但由于现代气候突变现象日益发生，效益下降等问题突出，如何提高养殖产品品质，直接增加了渔民的经济收......
甩掉容量规划炸弹：用 AHPA 实现 Kubernetes 智能弹性伸缩
作者：子白AHPA介绍背景Kubernetes中应用实例数设置有固定实例数、HPA和CronHPA三种策略。使用最多的是固定实例数，但是很多业务都存在波峰浪谷，如果采用固定实例数的......
智能流程机器人助你“聚划算”
摘要：RPA可以模拟人工进行操作，比如平时的登录，操作文件，抓取数据，调用api，与数据库进行交互等操作，从而实现一系列自动化的实现。本文分享自华为云社区《智能流程机器人助你......

《商务智能管理视角》——（四）数据挖掘（1）

相关文章

赞助商

阅读排行

《商务智能 管理视角》——（四）数据挖掘（1）

相关文章

赞助商

阅读排行

《商务智能管理视角》——（四）数据挖掘（1）