一、数据挖掘的由来
为什么学习数据挖掘这门课程:1、学习生活中无时无刻不在产生接触数据,数据很多但是没有充分利用,即存在着数据爆炸但是知识贫乏的现象。2、通过数据挖掘提供预测性信息。3、科学发展的四个阶段即经验科学、理论科学、计算科学、数据科学,我们正处于数据科学阶段,需要数据挖掘这门技术。
数据挖掘定义:数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
简单来说,数据挖掘就是从数据中提取信息和知识的过程。
二、数据挖掘的基本概念
1、数据、信息、知识
例:客户信息表
它们之间的关系:(金字塔型)最底层是数据,数据之上是信息,信息之上是情报,情报之上是知识,知识之上是智慧。
三、数据挖掘的主要内容
1、关联规则挖掘
例:
2、非监督式机器学习-聚类
通过一些相似性计算算法,相似的聚在一起,不相似的分开。
3、监督式机器学习
1)、离散标签预测-标签分类
第一步:学习建模
首先拿到训练样本,通过分类算法来得到信用评估的分类模型
第二步:分类测试
首先拿到测试数据,通过分类模型来进行预测信用评估
2)、连续标签预测-数值预测
第一步:学习建模
训练集是用数值描述的
第二步:预测测试
跟分类相比,它最后预测出的是一个数值。
案例:房价预测
通过训练集训练一个模型,来预测房价。
4、回归
建立多个变量之间的定量关系
标签:分类,预测,绪论,知识,信息,数据挖掘,数据 From: https://www.cnblogs.com/jiezstudy/p/16974568.html