首页 > 编程语言 >R语言改进的K-Means(K-均值)聚类算法分析股票盈利能力和可视化|附代码数据

R语言改进的K-Means(K-均值)聚类算法分析股票盈利能力和可视化|附代码数据

时间:2023-10-19 23:33:08浏览次数:40  
标签:中心 Means 样本 算法 可视化 聚类 数据 初始

全文链接:http://tecdat.cn/?p=32418

原文出处:拓端数据部落公众号

大量数据中具有"相似"特征的数据点或样本划分为一个类别。聚类分析提供了样本集在非监督模式下的类别划分。

人们在投资时总期望以最小的风险获取最大的利益,面对庞大的股票市场和繁杂的股票数据,要想对股票进行合理的分析和选择,聚类分析就显得尤为重要。

在本文中,我们采用了改进K-means聚类法帮助客户对随机选择的个股进行了聚类,并对各类股票进行了分析,给出了相应的投资建议。

读取数据

股票盈利能力分析数据

image.png

   
data=read.xlsx("股票盈利能力分析.xlsx")

image.png

初始聚类中心个数

初始聚类中心数目k的选取是一个较为困难的问题。传统的K-means聚类算法需要用户事先给定聚类数目k,但是用户一般情况下并不知道取什么样的k值对自己最有利、或者说什么样的k值对实际应用才是最合理的,这种情况下给出k值虽然对聚类本身会比较快速、高效,但是对于一些实际问题来说聚类效果却是不佳的。所以,下面我提出一种确定最佳聚类个数k的方法。

算法描述与步骤:

输入:包含n个对象的数据集;

输出:使得取值最小的对应的k值。

(1)根据初步确定簇类个数k的范围;

(2)仍然是用K-means算法对的每一个k值分别进行聚类;

(3)分别计算不同聚类个数k所对应的的值;

(4)找出最小的值,记下对应的k值,算法结束。

   
S[1]=sum(abs(data[,3:9]-result$centers)^2)/min(abs(data[,3:9]-result$ce
plot(2:6,S,type="b")

image.png

初始中心位置的选取

传统的K-means聚类算法中,我们总是希望能将孤立点对聚类效果的影响最小化,但是孤立点实际上在诈骗探测、安全性检测以及设备故障分析等方面起着不凡的作用;然而,本文排除以上这些因素,单纯地考虑聚类效果好坏。那么为了避免将孤立点误选为初始中心,我们选择高密度数据集合区域D中的数据作为聚类初始中心。

基本思想:

传统K-means聚类采用随机选择初始中心的方法一旦选到孤立点,会对聚类结果产生很大的影响,所以我们将初始中心的选择范围放在高密度区。首先在高密度区选择相距最远的两个样本点作为聚类的初始中心点,再找出与这两个点的距离之和最大的点作为第3个初始中心,有了第3个初始中心,同样找到与已有的三个初始聚类中心距离和最远的点作为第4个初始中心,以此类推,直到在高密度区将k个聚类中心都找出来为止。

算法描述与步骤:

输入:包含n个对象的数据集,簇类数目k;

输出:k个初始聚类中心。

(1)计算n个数据样本中每个对象x的的密度,当满足核心对象的条件时,将该对象加到高密度区域D中去;

(2)在区域D中计算两两数据样本间的距离,找到间距最大的两个样本点作为初始聚类中心,记为;

(3)再从区域D中找出满足条件:的点,将作为第三个初始聚类中心;

(4)仍然从区域D中找出满足到前面三个聚类中心的距离和最大的点;

(5)按照同样的方法进行下去,直到找到第k个初始聚类中心,结束。

   

 #首先在高密度区选择相距最远的两个样本点作为聚类的初始中心点,再找出与这两个点的距离之和最大的点作为第3个初始中心,
  
  dd=dist(data)
  dd=as.matrix(dd)
  #高密度区域
  D=which(dd<max(dd)/6 & dd!=0,arr.ind = T)
  D=unique(D[,1])
  dataD=data[D,]
  index=0
  for(i in 1:k){
    
    index[i]=as.numeric(row.names(which (

相似性度量的改进

在前面确定了k值以及k个初始聚类中心后,只要再确定相似性度量即可得到聚类结果。然而传统的K-means聚类采用欧氏距离作为相似性度量,这种方法没有很好地考虑到其实每个数据样本对聚类结果的影响可能是不同的,一律采用欧氏距离进行相似性衡量对聚类结果会产生较大影响。那么,我们如果根据数据样本的重要性对其赋予一个权值,就会减小孤立点等一些因素对聚类的影响,这种改进的度量方法我们称之为加权欧氏距离。

   
 ###根据改进后的加权欧氏距离公式
  ##   检验聚类操作是否需要结束,改进后的加权准则函数公式:的值最小或保持不变了
  sqrt(sum((c1$Centers/(sum(c1$Centers)/len

绘制聚类中心和可视化

   
lot(data[,-c(1:4)], fit$cluste

image.png

1111.png

输出聚类结果和聚类中心

   

###########################聚类类别###############
fit$Clusters
###########################聚类中心#########################
fit$Centers

image.png

image.png


rate reset presents banks with irrbb challenge_1365585930_standard_1536x1536.webp

最受欢迎的见解

1.R语言k-Shape算法股票价格时间序列聚类

2.R语言基于温度对城市层次聚类、kmean聚类、主成分分析和Voronoi图

3.R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

4.r语言鸢尾花iris数据集的层次聚类

5.Python Monte Carlo K-Means聚类实战

6.用R进行网站评论文本挖掘聚类

7.R语言KMEANS均值聚类和层次聚类:亚洲国家地区生活幸福质量异同可视化

8.PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯模型和KMEANS聚类用户画像

9.R语言基于Keras的小数据集深度学习图像分类

标签:中心,Means,样本,算法,可视化,聚类,数据,初始
From: https://www.cnblogs.com/tecdat/p/17775987.html

相关文章

  • 据类方法之:KMeans聚类分析
    书接上回,在上一篇博客中完成了数据的降维分析,这里在降维后的基础上继续进行聚类分析,使用前2个PC进行KMeans据类并可视化。fromsklearn.clusterimportKMeansfromcollectionsimportCounter#语言定义颜色和画布colors=['b','g','r','y','k','c','m�......
  • 基于Python的招聘网站爬虫及可视化的实现-计算机毕业设计源码+LW文档
    一、内容框架(一)主要内容论文按照项目的研究内容及技术路线,分为六章进行论述:第一章为概述,介绍了数据可视化和招聘网站的研究背景以及研究意义,分析了数据可视化和招聘技术的发展,对论文的研究内容做出阐述,最后简述了本文的章节安排。第二章为招聘数据可视化以及相关职位推荐系统使......
  • 基于Python的招聘网站爬虫及可视化的实现-计算机毕业设计源码+LW文档
    摘要随着社会经济的快速发展,人们的生活水平得到了显著提高,但随之而来的社会问题也越来越多。其中最为显著的就是就业问题。为此,招聘信息的展示也变得越来越为重要。但是在大量的招聘信息中,人们在提取自己最想要的信息时变得不那么容易,对于应聘者也是如此。本系统通过对网络爬虫的......
  • R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析|附代码数据
    全文链接:http://tecdat.cn/?p=22596最近我们被客户要求撰写关于预测心脏病的研究报告,包括一些图形和统计输出。本报告是对心脏研究的机器学习/数据科学调查分析。更具体地说,我们的目标是在心脏研究的数据集上建立一些预测模型,并建立探索性和建模方法。但什么是心脏研究?研究大纲......
  • R语言时变向量自回归(TV-VAR)模型分析时间序列和可视化|附代码数据
    全文链接:http://tecdat.cn/?p=22350 最近我们被客户要求撰写关于时变向量自回归(TV-VAR)模型的研究报告,包括一些图形和统计输出。在心理学研究中,个人主体的模型正变得越来越流行。原因之一是很难从人之间的数据推断出个人过程另一个原因是,由于移动设备无处不在,从个人获得的时间......
  • TSINGSEE风电场可视化智能视频集控监管系统,助力风电场无人值守监管新模式
    一、方案背景风能作为一种清洁的可再生能源,对于我国实现“双碳”目标尤为重要。风电场一般地处偏远地区,占地广、面积大,并且风机分布区域广泛、现场运行设备巡视难度大、及时性差。原有的监管系统智能化水平低,满足不了日常的生产安全、财产保障、运维管理等需求,因此,迫切需要构建一......
  • TSINGSEE智慧港口可视化智能监管解决方案,助力港口码头高效监管
    一、方案背景全球经济一体化进程以及国际市场的不断融合,使得港口码头成为了大型货运周转中心,每天数以百计的大型货轮、数以千计的大型集装箱、数以万计的人员流动。港口作为货物、集装箱堆放及中转机构,具有昼夜不歇、天气多变、环境恶劣等特性,安全保卫工作显得更加重要。在如此异常......
  • 【小白必看】Python爬虫数据处理与可视化
    前言本文分析了一段Python代码,主要功能是从网页中提取数据并进行数据处理与可视化。代码通过发送HTTP请求获取网页内容,使用XPath解析网页内容,并提取所需数据。然后使用pandas库构建数据结构,对数据进行统计与分组,并使用matplotlib库进行数据可视化。最后,对数据进行筛选、排序和保......
  • 【玩转Python系列】【小白必看】使用Python爬取双色球历史数据并可视化分析
    前言本文介绍了如何使用Python编程语言获取双色球历史数据,并使用数据可视化工具Matplotlib绘制了红球数量的折线图。通过对双色球历史数据的分析,我们可以更好地了解双色球的开奖规律和趋势。导入库importrequestsfromlxmlimportetreeimportcsvimportmatplotlib.pypl......
  • 3.4-plot快速可视化
    3.4-plot快速可视化 In [ ]:importpandasaspdimportnumpyasnp In [ ]:#dataframe.plot功能 In [ ]:#3.4.2单样本:生成随机数时间序列-->可视化数据样本-->模拟处理、绘制df=np.random.randn(1000)df......