首页 > 编程语言 >MATLAB数据挖掘用改进的K-Means(K-均值)聚类算法分析高校学生的期末考试成绩数据

MATLAB数据挖掘用改进的K-Means(K-均值)聚类算法分析高校学生的期末考试成绩数据

时间:2024-03-05 22:44:21浏览次数:27  
标签:Means data1 均值 高校学生 敏感 算法 聚类 数据挖掘 数据

全文链接:http://tecdat.cn/?p=30832

原文出处:拓端数据部落公众号

本文首先阐明了聚类算法的基本概念,介绍了几种比较典型的聚类算法,然后重点阐述了K-均值算法的基本思想,对K-均值算法的优缺点做了分析,回顾了对K-均值改进方法的文献,最后在Matlab中应用了改进的K-均值算法对数据进行了分析。

常用的聚类算法

常用的聚类算法有:K-MEANS、K-MEDOIDS、BIRCH、CURE、DBSCAN、STING。

主要聚类算法分类

类别 包括的主要算法
划分的方法 K-MEANS算法(K平均)、K-MEDOIDS算法(K中心点)、CLARANS算法(基于选择的算法)
层次的方法 BIRCH算法(平衡迭代规约和聚类)、CURE算法(代表点聚类)、CHAMELEON算法(动态模型)
基于密度的方法 DBSCAN算法(基于高密度连接区域)、DENCLUE算法(密度分布函数)、OPTICS算法(对象排序识别)
基于网络的方法 STING算法(统计信息网络)、CLIQUE算法(聚类高维空间)、WAVE-CLUSTER算法(小波变换)
基于模型的方法 统计学方法、神经网络方法

聚类算法的性能比较

聚类算法 适合数据类型 算法效率 发现的聚类形状 能否处理大数据集 是否受初始聚类中心影响 对异常数据敏感性 对输入数据顺序敏感性
K-MEANS 数值型 较高 凸形或球形 非常敏感 不敏感
K-MEDOIDS 数值型 一般 凸形或球形 不敏感 不敏感
BIRCH 数值型 凸形或球形 不敏感 不太敏感
CURE 数值型 较高 任意形状 不敏感 不太敏感
DBSCAN 数值型 一般 任意形状 敏感 敏感
STING 数值型 任意形状 一般 不敏感

 

由表可得到以下结论:1)大部分常用聚类算法只适合处理数值型数据;2)若考虑算法效率、初始聚类中心影响性和对异常数据敏感性,其中BIRCH算法、CURE算法以及STING算法能得到较好的结果;3)CURE算法、DBSCAN算法以及STING算法能发现任意形状的聚类。

改进聚类的主要步骤

聚类的主要步骤由以下几个方面组成:

(1)数据预处理:根据聚类分析的要求,对输入数据集进行特征标准化及降维等操作。

(2)特征选择及特征提取:将由数据预处理过程得到的最初始的特征中的最有效的特征选择出来,并将选取出来的最有效特征存放于特定的向量中,然后对这些有效特征进行相应的转换,得到新的有效突出特征。

(3)聚类(分组):根据需要选择合适的相似性度量函数对数据集中的数据对象相似程度进行度量,以此进行数据对象的聚类(分组)。

(4)对聚类结果进行评估:依据特定的评价标准对聚类的结果进行有效评估,评估聚类结果的优劣,以此对聚类分析过程进行进一步的改进和完善。

聚类的主要步骤可以用图来表示。

image.png

改进聚类分析中的数据类型及聚类准则函数

聚类算法的数据结构:数据矩阵、相异度矩阵。

相异度矩阵:相异度矩阵用来存储的是实体之间的差异性,n个实体的相异度矩阵表示为 n×n维的矩阵,用d(A,B)来表示实体A与实体B的相异性,一般来讲,是一种量化的表示方式,则含有n个实体的集合X={x1,x2,…,xn}的相异度矩阵表示如下:

image.png

d(i,j)表示对象i和j之间的相异性的量化表示,通常它是一个非负的数值,当对象i和j 越相似或接近,其值越接近0;两个对象越不同,其值越大。并且有d(i,j)=d(j,i),d(i,i)=0。目前最常用的的相似性度量函数为欧式距离

在MATLAB中应用K-MEANS算法

数据的预处理

本研究的数据是某高校学生的期末考试成绩,成绩表包括以下字段: x1为“电子商务”科目成绩,x2为“C语言概论”科目基础知识。其中,数据已经经过标准化和中心化的预处理:

(1)补充缺失值。对退学、转学、休学、缺考造成的数据缺失采用平均值法,以该科目的平均分数填充。

(2)规范化数据。运用最小-最大规范化方法对数据进行规范化处理,将数据映射到[0,1]区间,计算公式如下。

image.png

过程及结果分析

(1)读取数据

选择MATLAB的Data.mat,通过ImpoMatlabt Files,将所有数据读入。

   

load('data1.mat')
k = 6;
figure;
%数据标准化
data = zeros(size(data1));
[data(:,1) me(1) va(1)] = dataNormalization(data1(:,1));

(2)K-Means 模型设置

1)NumbeRs of clusteR:制定生成的聚类数目,这里设置为3.

2)定义了分割数据集,选择训练数据集作为建模数据集,并利用测试数据集对模型进行评价。

   
[idx c] = kmeansOfMy(data,k);
c = dataRecovery(c,me,va);
%画出各个区域中的散点
count = 0;
for i = 1 : k
    if i == 1
         plot(data1(idx == i,1),data1(idx == 1,2),'r*');
    elseif i == 2
         plot(data1(idx == i,1),data1(idx == i,2),'g*');
    elseif i == 3

QQ截图20221209155610.png

(3)执行和输出

设置完成后,选中Execute 按钮,即可得到改进聚类执行并观察到结果。

   
%kOfVertex = randKOfVertex(k);
kOfVertex = electedInitialCentroid(k);
for i = 1 : size(data,1)
        index(i) = minOfDistans(i,kOfVertex);

可以以图表的形式来显示模型的统计信息以及各个属性在各簇中的分布信息,结果如下图所示。

KWW6EDVMEVX.png

(4)聚类结果

结果表明:簇1中的学生都是考试成绩中等的,簇2中的学生考试成绩较高,簇2中的学生考试成绩较差,可见,大部分学生的期末考试成绩处于中等水平;各变量在各簇中的显著程度均较大,表明学生对各科目的学习分化程度较高,差异显著。

 

参考文献

[1] 贺玲, 吴玲达, 蔡益朝. 数据挖掘中的聚类算法综述[J]. 计算机应用研究, 2007(1).

[2] 蒋帅. K-均值聚类算法研究[D]. 陕西师范大学, 2010.

[3] 周涓, 熊忠阳, 张玉芳, 等. 基于最大最小距离法的多中心聚类算法[J]. 计算机应用, 2006, 26(6).

[4] A.K.Jain, MATLAB.C.Dubes. AlgoMatlabithms foMatlab ClusteMatlabing Data [J]. PMatlabentice-Hall Advanced MATLABefeMatlabence SeMatlabies, 1988(1).


QQ截图20211128174535.png

最受欢迎的见解

1.R语言k-Shape算法股票价格时间序列聚类

2.R语言基于温度对城市层次聚类、kmean聚类、主成分分析和Voronoi图

3.R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

4.r语言鸢尾花iris数据集的层次聚类

5.Python Monte Carlo K-Means聚类实战

6.用R进行网站评论文本挖掘聚类

7.R语言KMEANS均值聚类和层次聚类:亚洲国家地区生活幸福质量异同可视化

8.PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯模型和KMEANS聚类用户画像

9.R语言基于Keras的小数据集深度学习图像分类

标签:Means,data1,均值,高校学生,敏感,算法,聚类,数据挖掘,数据
From: https://www.cnblogs.com/tecdat/p/18055431

相关文章

  • 数据挖掘概念与技术 - chapter 6 - 挖掘频繁模式、关联与相关性:基本概念与方法
    ***关联推荐!频繁模式:频繁地出现在数据集中的模式,给出数据集中反复出现的联系。频繁序列模式:如有序购买一系列产品频繁结构模式:如组合购买产品sample购物篮分析:通过发现顾客放入他们购物篮中的商品之间的关联,分析顾客的购物习惯,这种关联度发现可以帮助零售商在哪些商品频繁......
  • 数据挖掘概念与技术 - chapter 3 - 数据预处理
    今世界数据库容易受到噪声、缺失值、不一致数据困扰,低质量数据会导致低质量的挖掘结果。数据集成将数据由多个数据源合并成一个一致的数据存储数据规约可以通过将聚集删除荣誉特征或者聚类来降低数据大规模。 数据质量:数据的准确性、完整性、一致性、时效性、可信性、可解释......
  • R语言Apriori关联规则、kmeans聚类、决策树挖掘研究京东商城网络购物用户行为数据可视
    全文链接:http://tecdat.cn/?p=30360最近我们被客户要求撰写关于网络购物用户行为的研究报告,包括一些图形和统计输出。随着网络的迅速发展,依托于网络的购物作为一种新型的消费方式,在全国乃至全球范围内飞速发展电子商务成为越来越多消费者购物的重要途径。我们被客户要求撰写关......
  • R语言Kmeans聚类、PAM、DBSCAN、AGNES、FDP、PSO粒子群聚类分析iris数据结果可视化比
    全文链接:http://tecdat.cn/?p=32007原文出处:拓端数据部落公众号本文以iris数据和模拟数据为例,帮助客户了比较R语言Kmeans聚类算法、PAM聚类算法、DBSCAN聚类算法、AGNES聚类算法、FDP聚类算法、PSO粒子群聚类算法在iris数据结果可视化分析中的优缺点。结果:聚类算法的聚类结......
  • k_means算法
    C语言代码#include<iostream>usingnamespacestd;//定义点的结构体structpoint{doublex;//点的x坐标doubley;//点的y坐标intcentroid;//点所属的质心};//定义计算两点之间距离的函数doubledist(structpointa,structpointb){......
  • 数据挖掘概念与技术 - chapter 2 - 认识数据
    数据特性:均值中位数众数中心趋势度量这些基本统计量有助于数据预处理时填补空缺值、光滑噪声、识别离群点。考察数据对象的"相似性/相异性"可以用于检测最近邻分类数据对象:一个实体(样本实例数据点)属性:一个数据字段特征变量维度单变量双变量标称属性:与名称相关,......
  • 数据挖掘||利用SQL Server 2012或者Excel 2013采用聚类和时序挖掘模型和算法,对自行车
    1.实验要求 利用SQLServer2012或者Excel2013(二者选择其一即可)进行数据挖掘实验,采用聚类和时序挖掘模型和算法,可以对附件中给定的excel数据进行聚类和时序挖掘实验,也可以采用自己采集的数据(如采用自选请说明数据来源)。 2.实验环境 操作系统:windows11;软件:Excel2019;SQLServer......
  • 【深度学习】一维数组的 K-Means 聚类算法理解
    刚看了这个算法,理解如下,放在这里,备忘,如有错误的地方,请指出,谢谢需要做聚类的数组我们称之为【源数组】需要一个分组个数K变量来标记需要分多少个组,这个数组我们称之为【聚类中心数组】及一个缓存临时聚类中心的数组,我们称之为【缓存聚类中心数组】然后初始化一个K长度的数组,值随机(尽......
  • 数据挖掘与业务智能:如何驱动企业成长
    1.背景介绍数据挖掘和业务智能是现代企业发展的关键技术,它们可以帮助企业更好地理解市场、客户和业务流程,从而提高竞争力和增长速度。数据挖掘是指从大量数据中发现隐藏的模式、规律和知识的过程,而业务智能则是利用这些发现为企业制定更有效的决策和策略。在本文中,我们将深入探讨数......
  • 浅析高校学生宿舍水电表管理系统设计与实现的研究应用
    安科瑞张田田1782193***9855摘要:为了改善高校学生宿舍安全用电、方便辅导员监测和管理学生作息时间,维护校园安全,设计出了基于高校学生宿舍的水电表管理系统。该系统采用基于FreescaleiMX6芯片下的嵌入式物联网应用开发,通过对水电表数据的采集处理传输到服务器端,服务器采用C#语言下的web开发,*后通过移......