数据预处理之基于聚类的TOD异常值检测#matlab

时间：2024-06-12 10:32:15浏览次数：27

标签：检测案例 matlab 聚类 SSE 异常 TOD

1.基于聚类的异常值检测方法

物以类聚——相似的对象聚合在一起，基于聚类的异常点检测方法有两个共同特点：

(1)先采用特殊的聚类算法处理输入数据而得到聚类，再在聚类的基础上来检测异常。

(2)只需要扫描数据集若干次，效率较高，适用于大规模数据集。

2.检测方法计算步骤

基于聚类的异常点检测方法计算如下：

(1)把所有样本按某个聚类方法进行聚类，假设聚为k类：C₁,C₂…Ck

(2)对于每个对象p,计算该对象到每个类之间的距离d(p,Ci)

(3)计算每个对象p的异常因子得分,公式如下：

(4)计算所有对象的因子异常得分的平均值Ave_OF及标准差Dev_OF。

(5)奇异值标定：若OF(p)≥Ave_OF+β·Dve_OF(1≤β≤2),则为奇异值。通常取β=1或1.285。

3.案例数据

以下为图书馆书籍的案例数据，大小为789*16，部分如下图：

4.TOD异常检测案例代码

此处的TOD函数代码为作者自编的代码，如有需要请在公众号:早星数学建模 后台回复TOD，获得相关代码和案例数据。

4.1最优K的确认

基于聚类的异常检测方法的基础是必须先对样本点进行聚类，然而案例数据中所给样本

点个数较多，且维度高难以直观的判断出K-means聚类的参数：聚类数K的值。因此，本文

依据聚类算法中常用的“肘部法则”确定聚类数K的值。

简而言之，“肘部法则”根据计算不同连续K值时，所有样本点SSE的大小进而以斜率

变化大的点（“手肘”）作为聚类数K，此法则简单有效，在聚类算法中常用。对于SSE的计算有：

同理，在聚类算法中，不同K值对应的SSE为：

在MATLAB中编程实现上述“肘部法则”，SSE随K变化如下：

显然，当K>3后，SSE随K不再显著下降，因此可以确定除了异常点之外的样本点可聚为3类。

4.2代码运行与结果

接下来利用matlab查找案例数据中的异常值，以下为matlab代码：

clear

clc

A=xlsread('3.3基于聚类异常值检测案例数据.xlsx','Sheet1','C2:R790');

[B,sum,ab_rate]=TOD(A);

在经过Step.5奇异值标定后，共有42个样本点成为异常点，占5.32%，对应序号如下：

序号
8	127	278	450	606	745
13	162	362	453	632	760
86	172	365	455	650	770
88	188	406	563	678	772
94	226	430	566	698	773
100	273	432	577	713	778
117	277	440	603	715	786

本案例每一个异常的对象的每一个属性特征用所有对象的每一个属性特征的众数来替代。此外，异常值处理不仅仅可以用众数替代，还可以用均值和中位数，还可以用插值等方法替代。

标签：检测,案例,matlab,聚类,SSE,异常,TOD
From： https://blog.csdn.net/m0_56619132/article/details/139602103

一种改进盲解卷积算法在旋转机械故障诊断中的应用（MATLAB）
滚动轴承故障形成后，故障区与其他零部件表面接触将产生循环平稳的瞬态脉冲。由于受到系统传递函数、轴转频和环境噪声的干扰，故障脉冲特征受到大幅衰减，在测得信号中表现十分微弱甚至完全不可见。盲解卷积算法通过搜索一个最优的有限脉冲响应滤波器来降低信号传输路径、轴转频和环......
R语言上市公司经营绩效实证研究 ——因子分析、聚类分析、正态性检验、信度检验|附代
全文链接：http://tecdat.cn/?p=32747原文出处：拓端数据部落公众号随着我国经济的快速发展，上市公司的经营绩效成为了一个备受关注的话题。本文旨在探讨上市公司经营绩效的相关因素，并运用数据处理、图示、检验和分析等方法进行深入研究，帮助客户对我国45家上市公司的16项财务指标进行......
需求响应|动态冰蓄冷系统与需求响应策略的优化研究（Matlab代码实现）
......
基于多时段动态电价的电动汽车有序充电策略优化（Matlab代码实现）
......
【图像融合】基于小波变换的 TMSST（Matlab实现）
......
具有模态指标的随机子空间识别【包括一致模态指标和模态参与因子】（Matlab代码实现）
......
MATLAB基础应用精讲-【数模应用】二元Logit分析
目录算法原理数学模型极大似然法Newton牛顿迭代法logit回归分析步骤一、二元logit分析1.基本说明2.数据处理3.SPSSAU上传数据4.分析前提示5.SPSSAU分析6.其它说明二、多分类logit分析1.基本说明2.数据要求与处理3.SPSSAU上传数据4.SPSSAU分析5.其它说明三、......
苹果终于要推出真正的 Siri 了吗？｜TodayAI
苹果的语音助手本来应该是一个超越当前形态的存在。现在，13年后，它可能真的准备好了。2011年，苹果与 iPhone 4S一同推出了 Siri。公司发布了一系列广告，展示了如何使用这个新奇的语音助手。这些广告展示了Siri可以完成提醒、天气预报、闹钟等多种任务。广告的重点是Siri......
在Matlab中如何计算决定系数R^2和相关系数r
Problem当你使用polyfit函数进行多项式拟合之后，你希望计算决定系数或者相关系数看看拟合效果如何。聪明的你肯定觉得聪明的Matlab的polyfit函数的返回值中会有\(R^2\)或者\(r\)吧。你尝试disp了一下，发现有一个结构体\(S\)。再查一查帮助文档，发现误差估计结构体\(S\)中只有一个......
基于GA遗传优化的CNN-GRU的时间序列回归预测matlab仿真
1.算法运行效果图预览 2.算法运行软件版本MATLAB2022a 3.部分核心程序figureplot(Error2,'linewidth',2);gridonxlabel('迭代次数');ylabel('遗传算法优化过程');legend('Averagefitness');[V,I]=min(JJ);X=phen1(I,:);LR......

数据预处理之基于聚类的TOD异常值检测#matlab

相关文章

赞助商

阅读排行