首页 > 其他分享 >数据建模的脏数据

数据建模的脏数据

时间:2023-02-02 18:24:40浏览次数:55  
标签:数据 模型 建模 数据挖掘 异常 缺失

脏数据

1.脏数据一般是指不符合要求以及不能直接进行相应分析的数据。在常见的数据挖掘工作中,脏数据包括:缺失值、异常值、不一致的值、重复数据及含有特殊符号(如#、¥、*)的数据。

数据挖掘建模

1. 数据挖掘(Data Mining)就是从大量的数据中,提取隐藏在其中的,事先不知道的、但潜在有用的信息的过程。数据挖掘的目标是建立一个决策模型,根据过去的行动数据来预测未来的行为。比如分析一家公司的不同用户对公司产品的购买情况,进而分析出哪一类客户会对公司的产品有兴趣。

2. 建模原则
在数据挖掘建模的过程中,一般遵守以下基本原则。
# 1.简单性
从实用上而言,由于在建模过程中忽略了-些次要因素和某些非可测变量的影响,实际的模型已是一个简化的近似模型。一般而言,在实用的前提下,模型越简单越好。
# 2.清晰性
一个复杂的系统往往是由许多子系统组成的,因此对应的系统模型也是由许多子模型构成的。在子模型之间除为了研究目的所必须的信息联系外,互相耦合要尽量少,结构要尽可能清晰。
# 3.相关性
模型中应该只包括系统中与研究目的有关的信息。虽然与研究目的无关的信息包括在模型中,可能不会有很大危害,但是它们会增加模型的复杂性,从而增加模型求解的额外工作,所以应该把与研究目的无关的信息排除掉。但是实际系统中如何判断信息是否为本质的,要取决于研究问题的研究目的。模型是按照系统的建模目的所做的一种近似描述, 一般不可能考虑系统的所有因素。当然,如果要求模型越精确,模型就会变得越复杂;反之,如果降低模型的精度要求,模型就会简单些。这就是说,建立实际系统的模型时,存在着精确性和复杂性的矛盾,找出它们的折中解决方法,往往是实际系统建模的关键。
# 4.准确性
建模时应该考虑所收集的用于建模的信息的准确性,包括确认所对应的原理的正确性和应用范围,以及检验建模过程中针对系统所做的假设的正确性。
# 5.识别性
模型结构必须具有可识别的形式。所谓识别性是指系统的模型必须有确定的描述或表示方式,而在该描述方式下与系统性质有关的参数必须是唯一确定的解。 如果一个模型结构中具有无法估计的参数,则这个模型就没有实用价值。
# 6.集成性
建模时还要考虑能够把一些个别的实体组成更大实体或者多个子系统综合集成为复杂系统的程度,即模型的集成性。

3.数据建模
模型就是根据训练数据的规律建立的,之后用根据模型和新的输入数据产生输出的数据,这个就是数据挖掘的本质。
'''
就是把一个要挖掘的问题转换成数学问题。比如问题是怎么根据贷款客户的财产、学历判断他会不会不还钱。把不还钱概率设为y叫因变量(或标签),财产及学历设为x叫自变量(或特征)。然后通过样本数据和一些数学方法找到y与x的函数关系。模型建立好,知道一个用户的财产学历,就知道能不能把钱借给他了。常用的模型很多,如经典的线性回归,还有线性规划,图算法等等,大数据时代使对计算力数据量要求较高的机器学习模型,神经网络模型有了价值。图像识别,语音识别都可以转成一个数学模型了
'''

缺失值分析

数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果不准确。下面从缺失值产生的原因及影响等方面展开分析。

1. 缺失值产生的原因主要有以下3点:
# 1 有些信息暂时无法获取,或者获取信息的代价太大。
# 2 有些信息是被遗漏的。可能是因为输入时认为该信息不重要、忘记填写或对数据理解错误等一些人为因素而遗漏,也可能是由于数据采集设备故障、存储介质故障、传输媒体故障等非人为原因而丢失。
# 3 属性值不存在。在某些情况下,缺失值并不意味着数据有错误。对一些对象来说某些属性值是不存在的,如一个未婚者的配偶姓名、一个儿童的固定收入等。

2. 缺失值会产生以下的影响:
# 1 数据挖掘建模将丢失大量的有用信息。
# 2 数据挖掘模型所表现出的不确定性更加显著,模型中蕴含的规律更难把握。
# 3 包含空值的数据会使建模过程陷入混乱,导致不可靠的输出。

3.对于缺失值的处理,从总体上来说分为删除存在缺失值的记录、对可能值进行插补和不处理3种情况。

异常值分析

异常值是指样本中的个别值,其数值明显偏离其他的观测值。异常值也称为离群点,异常值分析也称为离群点分析。

1. 简单统计量分析
在进行异常值分析时,可以先对变量做一个描述性统计,进而查看哪些数据是不合理的。最常用的统计量是最大值和最小值,用来判断这个变量的取值是否超出了合理范围。如客户年龄的最大值为199岁,则判断该变量的取值存在异常。

2. 3σ原则
如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值。在正态分布的假设下,距离平均值3σ之外的值出现的概率为P(|x-μ|>3σ)≤0.003,属于极个别的小概率事件。
'''
异常值分析是检验数据是否有录入错误,是否含有不合常理的数据。忽视异常值的存在是十分危险的,不加剔除地将异常值放入数据的计算分析过程中,会对结果造成不良影响;重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机。
'''

一致性分析

数据不一致性是指数据的矛盾性、不相容性。直接对不一致的数据进行挖掘,可能会产生与实际相违背的挖掘结果。
在数据挖掘过程中,不一致数据的产生主要发生在数据集成的过程中,可能是由于被挖掘数据来自于不同的数据源、对于重复存放的数据未能进行一致性更新造成的。
例如,两张表中都存储了用户的电话号码,但在用户的电话号码发生改变时只更新了一张表中的数据,那么这两张表中就有了不一致的数据。

标签:数据,模型,建模,数据挖掘,异常,缺失
From: https://www.cnblogs.com/riuqi/p/17086941.html

相关文章