首页 > 编程语言 >spark Bisecting k-means(二分K均值算法)

spark Bisecting k-means(二分K均值算法)

时间:2023-06-01 14:32:05浏览次数:44  
标签:误差 means 平方和 算法 聚类 spark Bisecting

Bisecting k-means(二分K均值算法)

       二分k均值(bisecting k-means)是一种层次聚类方法,算法的主要思想是:首先将所有点作为一个簇,然后将该簇一分为二。之后选择能最大程度降低聚类代价函数(也就是误差平方和)的簇划分为两个簇。以此进行下去,直到簇的数目等于用户给定的数目K为止。 
       以上隐含着一个原则是:因为聚类的误差平方和能够衡量聚类性能,该值越小表示数据点月接近于它们的质心,聚类效果就越好。所以我们就需要对误差平方和最大的簇进行再一次的划分,因为误差平方和越大,表示该簇聚类越不好,越有可能是多个簇被当成一个簇了,所以我们首先需要对这个簇进行划分。

       bisecting k-means通常比常规K-Means方法运算快一些,也和K-Means聚类方法得到结果有所不同。 
    Bisecting k-means is a kind of hierarchical clustering using a divisive (or “top-down”) approach: all observations start in one cluster, and splits are performed recursively as one moves down the hierarchy. 
    Bisecting K-means can often be much faster than regular K-means, but it will generally produce a different clustering. 
       二分k均值算法的伪代码如下:

将所有的点看成一个簇
当簇数目小于k时
       对每一个簇:
              计算总误差
              在给定的簇上面进行k-均值聚类k=2
              计算将该簇一分为二后的总误差
       选择使得误差最小的那个簇进行划分操作
//BisectingKMeans和K-Means API基本上是一样的,参数也是相同的
//模型训练
val bkmeans=new BisectingKMeans()
                        .setK(2)
                        .setMaxIter(100)
                        .setSeed(1L)
val model=bkmeans.fit(dataset)

//显示聚类中心    
model.clusterCenters.foreach(println)

//SSE(sum of squared error)结果评估    
val WSSSE=model.computeCost(dataset)
println(s"within set sum of squared error = $WSSSE")

Bisecting k-means优缺点 
       同k-means算法一样,Bisecting k-means算法不适用于非球形簇的聚类,而且不同尺寸和密度的类型的簇,也不太适合。

 


标签:误差,means,平方和,算法,聚类,spark,Bisecting
From: https://blog.51cto.com/u_11908275/6393875

相关文章

  • spark 常用参数和默认配置
    常用的Spark任务参数及其作用:spark.driver.memory:设置driver进程使用的内存大小,默认为1g。spark.executor.memory:设置每个executor进程使用的内存大小,默认为1g。spark.executor.cores:设置每个executor进程使用的CPU核数,默认为1。spark.default.parallelism:设置RDD的默......
  • sparkSQL原理和使用——一般在生产中,基本都是使用hive做数据仓库存储数据,然后用spark
    一、sparkSQL概述1.1什么是sparkSQLSparkSQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。类似于hive的作用。1.2sparkSQL的特点1、容易集成:安装Spark的时候,已经集成好了。不需要单独安装。2、统一的数据访问方......
  • Spark GraphX 的数据可视化
    概述SparkGraphX本身并不提供可视化的支持,我们通过第三方库GraphStream和Breeze来实现这一目标详细Spark和GraphX对并不提供对数据可视化的支持,它们所关注的是数据处理。但是,一图胜千言,尤其是在数据分析时。接下来,我们构建一个可视化分析图的Sp......
  • MATLAB用改进K-Means(K-均值)聚类算法数据挖掘高校学生的期末考试成绩|附代码数据
    全文链接:http://tecdat.cn/?p=30832最近我们被客户要求撰写关于K-Means(K-均值)聚类算法的研究报告,包括一些图形和统计输出。本文首先阐明了聚类算法的基本概念,介绍了几种比较典型的聚类算法,然后重点阐述了K-均值算法的基本思想,对K-均值算法的优缺点做了分析,回顾了对K-均值改进......
  • 【博学谷学习记录】超强总结,用心分享 | spark知识点总结2
    【博学谷IT技术支持】Action动作算子reduce:通过func函数聚集RDD中的所有元素,这个功能必须是可交换且可并联的collect:在驱动程序中,以数组的形式返回数据集的所有元素count:返回RDD的元素个数first:返回RDD的第一个元素(类似于take(1))take:返回一个由数据集的前n个元......
  • Windows 配置 Hadoop and Spark
    一JDK环境配置由于项目用的JDK17,所以单独给Hadoop配了JDK11,建议直接配置JAVA_HOME环境变量为JDK11,因为后面Spark需要用到JAVA_HOME下载JDK11链接:https://www.oracle.com/java/technologies/javase/jdk11-archive-downloads.html目前Hadoop和Spark兼容JDK11和JDK8单独修改Had......
  • 聚类算法:ISODATA算法 ——kmeans算法升级版,不知道k也可以,但是需要你自己指定其他参数
    当K值的大小不确定时,可以使用ISODATA算法。ISODATA的全称是迭代自组织数据分析法。在K均值算法中,聚类个数K的值需要预先人为地确定,并且在整个算法过程中无法更改。而当遇到高维度、海量的数据集时,人们往往很难准确地估计出K的大小。ISODATA算法就是针对这个问题进行了改进,它的思想......
  • spark 任务运行原理
    调优概述在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用......
  • spark RDD底层原理
    RDD底层实现原理RDD是一个分布式数据集,顾名思义,其数据应该分部存储于多台机器上。事实上,每个RDD的数据都以Block的形式存储于多台机器上,下图是Spark的RDD存储架构图,其中每个Executor会启动一个BlockManagerSlave,并管理一部分Block;而Block的元数据由Driver节点的BlockManagerMaster......
  • spark context stop use with as
    调用方法:withsession.SparkStreamingSession('CC_Traffic_Realtime',ssc_time_windown)asss_session:kafkaStreams=ss_session.get_direct_stream(TOPICNAME)kafkaStreams.transform(xxxx)...ss_session.ready_to_go()实现方......