二.Data Mining Process Model & Data Preprocessing
1.Process Model
2.Data
3.Problems of data quality
4.Data understanding (Summary statistics ;Visualization)
5.Data preparation (Data cleaning ;Data transformation)
P.S.CRossIndustry Standard Process -Data Mining (CRISP-DM)-行业标准----------------------------------根据 KDNuggets.com 最流行的数据挖掘方法模型
1.1 监督性学习:分类学习、类别标签预先定义;非监督学习:聚类学习、由分析结果给出标签
1.2 分类的定义: 给定一组记录(训练集)。每个记录包含一组属性,其中一个属性是类别。找到类别属性作为其他属性值的函数的模型。目标是对以前未见过的记录尽可能准确地分配类别。使用测试集来确定模型的准确性。通常,给定的数据集被分为训练集和测试集,训练集用于构建模型,测试集用于验证模型。
1.3 聚类的定义: 给定一组数据点,每个数据点都有一组属性,以及它们之间的一种相似性度量,找到聚类使得: 一个聚类中的数据点彼此之间更加相似。 •不同聚类中的数据点彼此之间不太相似。 •相似性度量: •如果属性是连续的,则使用欧几里得距离。 •其他特定问题的度量。
1.4 聚类的应用: 市场细分: 目标:将市场细分为不同的客户子集,其中任何一个子集都可以被合理地选择作为市场目标,并用不同的营销组合来覆盖。
方法: 根据客户的地理和生活方式相关信息收集客户的不同属性。------------------------
找到相似客户的聚类------------------------------------------------------------------------------------
------------通过观察同一聚类中的客户与不同聚类中的客户的购买模式来衡量聚类质量。
1.5 关联规则发现的定义: 给定一组记录,每个记录都包含来自给定集合中的一些物品;生成依赖规则,这些规则将根据其他物品的出现情况来预测一个物品的出现。-----------货架摆放问题、库存管理
1.6 序列模式发现的定义: 给定一组对象,每个对象都与其自身的事件时间线相关联,找到预测不同事件之间强烈的序列依赖关系的规则。
规则是通过首先发现模式而形成的。模式中的事件发生受时间约束的支配。
1.7 回归: 基于其他变量的值来预测一个给定的连续值变量的值,假设存在线性或非线性的依赖模型。
例子: 根据广告支出预测新产品的销售金额。
根据温度、湿度、气压等预测风速。
对股票市场指数进行时间序列预测。
标签:DM,一组,ML,模型,给定,聚类,数据挖掘,Data,属性 From: https://blog.csdn.net/m0_74400863/article/details/142487463