概念漂移
概念漂移是数据流挖掘领域中一个重要的研究点。传统的机器学习算法在操作时通常假设数据是静态的,其数据分布不会随着时间发生变化。然而对于真实的数据流来说,由于数据流天生的时间性,到达的数据的分布可能会随着时间的推移不断改变。这使得传统的批处理模型不适合对数据流的进行挖掘分析,模型更是需要有检测和适应数据分布变化的能力。例如,在服装店销售预测的例子中,如果季节性因素导致服装销售额在夏季月份较高,那么在冬季该预测模型可能就不管用了。
如果要对概念漂移下定义的话,它的定义是:概念漂移是一种现象,即目标领域的统计属性随着时间的推移以一种任意的方式变化。
如果用一句话来描述概念漂移的话,它就是:数据分布不均匀,使得过去训练的表现不能保证将来的结果。
基于间隔密度的概念漂移检测算法mdm-DDM
背景
mdm-DDM解决了基于错误率的漂移检测算法必须及时获取标记数据标签的问题。mdm-DDM利用间隔密度作为检测漂移的度量,然后结合McDiarmid 不等式来进行显著性检验,以此判断是否产生概念漂移。
本文只考虑了没有明确决策边界的mdm-DDM,在有标签情况下,用集成分类器来进行预测。
定义
- 间隔区域
- 预测空间中最容易分类错误的部分
- 间隔密度
- 分类器不确定区域中的样本密度,即具有不确定性的数据样本占总体样本的密度
间隔密度计算
- 对于每一个样本x来说:
其中E指的是集成分类器。被减数指的是样本经过分类器预测后,集成分类器预测标签为样本标签的概率。减数的是样本经过分类器预测后,集成分类器预测标签不为样本标签的概率。
- 间隔密度的计算方式:
其中
标签:密度,mdm,间隔,样本,分类器,DDM,数据流,漂移 From: https://www.cnblogs.com/ggyt/p/17707242.html