首页 > 编程语言 >R语言K-Means(K均值聚类)和层次聚类算法对微博用户特征数据研究

R语言K-Means(K均值聚类)和层次聚类算法对微博用户特征数据研究

时间:2024-03-27 22:46:54浏览次数:28  
标签:Means 算法 用户 微博 聚类 数据 聚类分析

全文链接:https://tecdat.cn/?p=32955

原文出处:拓端数据部落公众号

本文就将采用K-means算法和层次聚类对基于用户特征的微博数据帮助客户进行聚类分析。首先对聚类分析作系统介绍。其次对聚类算法进行文献回顾,对其概况、基本思想、算法进行详细介绍,再是通过一个仿真实验具体来强化了解聚类算法,本文的数据是由所设计地软件在微博平台上获取的数据,最后得到相关结论和启示。

聚类分析法概述

聚类算法的研究有着相当长的历史,早在1975年 Hartigan就在其专著 Clustering Algorithms[5]中对聚类算法进行了系统的论述。聚类分析算法作为一种有效的数据分析方法被广泛应用于数据挖掘、机器学习、图像分割、语音识别、生物信息处理等。

聚类方法是无监督模式识别的一种方法,同时也是一种很重要的统计分析方法。聚类分析已经被广泛的研究了很多年,研究领域涵盖数据挖掘、统计学、机器学习和空间数据库等众多领域。聚类是基于数据的相似性将数据集合划分成组,然后给这些划分好的组指定标号。目前文献中存在着大量的聚类算法,大体上,聚类分析算法主要分成如下几种[6],图2-1显示了一些主要的聚类算法的分类。

image.png

微博用户特征数据研究

为了进一步验证K-means算法,本文将采集一批微博数据,通过根据微博用户特征属性对其进行聚类,并得出结论。

数据采集

新浪微博,作为中国的较大的用户使用较受欢迎的微博使用平台之一,从其平台上抽取的微博一定程度上可以反映国内微博平台的传播情况。鉴于新浪微博在国内具有较大影响力,故本文选取有影响力的新浪微博用户为研究对象,包括大V、电商平台、明星、网红等,从微博用户特征出发,来探索基于用户特征的聚类分析。本研究总共获取了50359条微博数据。

数据取值范围

指标 取值范围
是否认证 V或N
性别 男或女
粉丝数 0,1,2…(非负整数)
微博数 0,1,2…(非负整数)
注册时间比 日期

根据本文需求,采用编程软件在新浪微博平台上收集到的相关数据,具体样本实例如图所示,其中,对是否加V,粉丝关注比进行标准化。

image.png

K-means和层次聚类

   
data=read.csv("2012年12月新浪微博用户数据.csv")

#删除缺失值
dat=.mit(data)
for(i in 3:ncol(dta))dta[,i]=as.nuerc(daa[,i])

kmas(data[,c("性别" ,"粉丝数","微博数" ,"是否认证" ,"注册时间" )]

本文采用R软件对数据进行K-means聚类和层次聚类分析。R语言是统计领域广泛使用的,诞生于1980年左右的S语言的一个分支。

结果

将该数据集分为了三类。

   
plot(data[,3:4], fit$clust

1111.png

image.png

image.png

image.png

K-means算法将该样本集分为4类,其中最多的为cluster-2,有39886条记录,其次是cluster-3,有4561条记录,再者是cluster-1,为3514条记录,cluster-4,为2398条记录。从聚类数量来看聚类数目分布合理,没有出现过少的离群点。从聚类中心来看,第二类别是微博数较少,但是粉丝很多,并且注册时间较早的一批用户,并且已经是认证的用户,因此可以认为是大V用户。第1类同样拥有较多的粉丝,同样是认证用户,可以认为是小V用户。第三类粉丝数目少,没有认证,并且注册较晚,因此可以认为是普通微博用户,第四类用户微博数目多,粉丝数目较多,但是没有认证,因此可以认为是草根名博。

image.png

层次聚类验证

为了验证该结果的可行性,又采用了R统计软件对样本进行了层次聚类分析。具体代码如下所示:

   
attach(x):

c<-hcst(dist(x),"sin

ct.hclu

得到聚类结果如图:

image.png

从层次聚类的结果来看,将该数据划分成4个类别是相对合理的,因此上述认证有理有据。

结论

本文研究了数据挖掘的研究背景与意义,讨论了聚类算法的各种基本理论包括聚类的形式化描述和定义,聚类中的数据类型和数据结果,聚类的相似性度量和准则函数等。同时也探讨学习了基于划分的聚类方法的典型的聚类方法。本文重点集中学习了研究了 K-Means聚类算法的思想、原理以及该算法的优缺点。并运用K-means算法对所采集的数据进行聚类分析,深化了对该算法的理解。

参考文献

[1] 中国互联网络信息中心(CNNIC).第33次中国互联网络发展状况统计报告[EB/OL].

[2] 郭宇红,童云海,唐世渭等.数据库中的知识隐藏 [ J ].软件学报,2007, 11 (18) : 278222797.

[3] hehroz S.Khan,Amir Ahmad.Cluster center initialization algorithm for K-Means clustering[J].Pattern Recognition Letters 25(2004): 1293-1302.

[4] 王春风,唐拥政.结合近邻和密度思想的K-均值算法的研究[J] 计算机工程应用.2011 年,47(19).147-149.

[5] 杨小兵.聚类分析中若干关键技术的研究[D].杭州:浙江大学,2005年:24-25.

[6] Hartigan J A. Clustering Algorithms[M].New York: John Wiley&Sons Inc.,1975.

[7] Tony Bain 等著.邵勇译.SQL Server2000 数据仓库与 Analysis Services[M]. 北京.中国电力出版社,2003.

[8] Handl Julia, Joshua Knowles, Douglas B. Kell. Computational cluster validation  in post-genomic data


the-next-competitive-advantage-in-talent-continuous-employee-listening-1342432974-standard-1536x1536.jpg 最受欢迎的见解

1.R语言k-Shape算法股票价格时间序列聚类

2.R语言基于温度对城市层次聚类、kmean聚类、主成分分析和Voronoi图

3.R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

4.r语言鸢尾花iris数据集的层次聚类

5.Python Monte Carlo K-Means聚类实战

6.用R进行网站评论文本挖掘聚类

7.R语言KMEANS均值聚类和层次聚类:亚洲国家地区生活幸福质量异同可视化

8.PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯模型和KMEANS聚类用户画像

9.R语言基于Keras的小数据集深度学习图像分类

标签:Means,算法,用户,微博,聚类,数据,聚类分析
From: https://www.cnblogs.com/tecdat/p/18100481

相关文章

  • Paper Digest|基于在线聚类的自监督自蒸馏序列推荐模型
    论文标题:LeaveNoOneBehind:OnlineSelf-SupervisedSelf-DistillationforSequentialRecommendation作者姓名:韦绍玮、吴郑伟、李欣、吴沁桐、张志强、周俊、顾立宏、顾进杰组织单位:蚂蚁集团录用会议:WWW2024ResearchTrack本文作者:韦绍玮|蚂蚁集团高级算法工......
  • 微博大v推广一次多少钱?CloudNEO:8000+大V资源,助您企业宣传
    揭秘微博大V推广费用:一次多少钱?在当今社交媒体时代,微博(Weibo)作为中国最具影响力的社交平台之一,拥有大量的用户和活跃的社交氛围。与微博上的大V(认证用户)合作进行推广,是许多品牌和个人的选择。然而,对于大多数人来说,微博大V推广一次的费用是多少呢?下面就让我们一起来揭秘微博大V......
  • 数据分享|MATLAB、R基于Copula方法和k-means聚类的股票选择研究上证A股数据|附代码数
    全文链接:http://tecdat.cn/?p=31733最近我们被客户要求撰写关于Copula的研究报告,包括一些图形和统计输出。Copula方法是测度金融市场间尾部相关性比较有效的方法,而且可用于研究非正态、非线性以及尾部非对称等较复杂的相依特征关系因此,Copula方法开始逐渐代替多元GARCH模型的相......
  • RSSHub给不支持RSS网站制作RSS订阅源-支持B站,知乎,微博,豆瓣,今日头条
    https://wzfou.com/rsshub/为了更快地搜集整理自己需要的信息,我们经常会用到RSS订阅,但是有一些高质量的网站,例如知乎、B站、微博、豆瓣、TG群组、非死不可、推@特等,官方是不支持使用RSS订阅的。之前我们分享过利用Huginn抓取任意网站RSS和微信公众号更新,不过Huginn架设的难度比较......
  • 微博情感评论分析系统-完整代码数据 毕业设计
    ......
  • R语言k-Shape时间序列聚类方法对股票价格时间序列聚类|附代码数据
    原文链接:http://tecdat.cn/?p=3726最近我们被客户要求撰写关于时间序列聚类的研究报告,包括一些图形和统计输出。本文我们将使用k-Shape时间序列聚类方法检查与我们有业务关系的公司的股票收益率的时间序列企业对企业交易和股票价格在本研究中,我们将研究具有交易关系的公司的......
  • C#,人工智能,机器学习,聚类算法,训练数据集生成算法、软件与源代码
    摘要:本文简述了人工智能的重要分支——机器学习的核心算法之一——聚类算法,并用C#实现了一套完全交互式的、可由用户自由发挥的,适用于聚类算法的训练数据集生成软件——Clustering。用户使用鼠标左键(拖动)即可生成任意形状,任意维度,任意簇数及各种数据范围的训练数据集,同时也可以......
  • 机器学习模型—K means
    文章目录机器学习模型—Kmeans聚类的目标k均值原理k均值的实现手动实现Python实现K的确定手肘法总结机器学习模型—KmeansK-Means聚类是一种无监督机器学习算法,它将未标记的数据集分为不同的簇。本文旨在探讨k均值聚类的基本原理和工作......
  • SPSS大学生网络购物行为研究:因子分析、主成分、聚类、交叉表和卡方检验
    全文链接:https://tecdat.cn/?p=35377原文出处:拓端数据部落公众号随着互联网的普及和电子商务的快速发展,网络购物已成为大学生日常生活中不可或缺的一部分。大学生作为网络购物的主体力量,其消费观念、行为特征以及影响因素对于电子商务行业的发展具有重要的研究价值。因此,本文旨......
  • 聚类算法-K-means
    主要在K-means的理解1介绍K-means算法,以及具体的过程K-means算法是常用的聚类算法之一,属于无监督学习,主要用来将标签未知的数据划分成较少的类/簇,类内的样本差异要小,类间的样本差异要大,这可以帮助我们探索数据结构和分布。K-means的具体实现过程:(四步)初始化模型参数:聚类的簇......