spark Bisecting k-means（二分K均值算法）

时间：2023-06-01 14:32:05浏览次数：44

Bisecting k-means（二分K均值算法）

二分k均值（bisecting k-means）是一种层次聚类方法，算法的主要思想是：首先将所有点作为一个簇，然后将该簇一分为二。之后选择能最大程度降低聚类代价函数（也就是误差平方和）的簇划分为两个簇。以此进行下去，直到簇的数目等于用户给定的数目K为止。
以上隐含着一个原则是：因为聚类的误差平方和能够衡量聚类性能，该值越小表示数据点月接近于它们的质心，聚类效果就越好。所以我们就需要对误差平方和最大的簇进行再一次的划分，因为误差平方和越大，表示该簇聚类越不好，越有可能是多个簇被当成一个簇了，所以我们首先需要对这个簇进行划分。

     bisecting k-means通常比常规K-Means方法运算快一些，也和K-Means聚类方法得到结果有所不同。
  Bisecting k-means is a kind of hierarchical clustering using a divisive (or “top-down”) approach: all observations start in one cluster, and splits are performed recursively as one moves down the hierarchy.
  Bisecting K-means can often be much faster than regular K-means, but it will generally produce a different clustering.
   二分k均值算法的伪代码如下：

将所有的点看成一个簇
当簇数目小于k时
       对每一个簇：
              计算总误差
              在给定的簇上面进行k-均值聚类k=2
              计算将该簇一分为二后的总误差
       选择使得误差最小的那个簇进行划分操作

//BisectingKMeans和K-Means API基本上是一样的，参数也是相同的
//模型训练
val bkmeans=new BisectingKMeans()
                        .setK(2)
                        .setMaxIter(100)
                        .setSeed(1L)
val model=bkmeans.fit(dataset)

//显示聚类中心    
model.clusterCenters.foreach(println)

//SSE（sum of squared error）结果评估    
val WSSSE=model.computeCost(dataset)
println(s"within set sum of squared error = $WSSSE")

Bisecting k-means优缺点
同k-means算法一样，Bisecting k-means算法不适用于非球形簇的聚类，而且不同尺寸和密度的类型的簇，也不太适合。

标签：误差,means,平方和,算法,聚类,spark,Bisecting
From： https://blog.51cto.com/u_11908275/6393875

spark 常用参数和默认配置
常用的Spark任务参数及其作用：spark.driver.memory：设置driver进程使用的内存大小，默认为1g。spark.executor.memory：设置每个executor进程使用的内存大小，默认为1g。spark.executor.cores：设置每个executor进程使用的CPU核数，默认为1。spark.default.parallelism：设置RDD的默......
sparkSQL原理和使用——一般在生产中，基本都是使用hive做数据仓库存储数据，然后用spark
一、sparkSQL概述1.1什么是sparkSQLSparkSQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。类似于hive的作用。1.2sparkSQL的特点1、容易集成：安装Spark的时候，已经集成好了。不需要单独安装。2、统一的数据访问方......
Spark GraphX 的数据可视化
概述SparkGraphX本身并不提供可视化的支持,我们通过第三方库GraphStream和Breeze来实现这一目标详细Spark和GraphX对并不提供对数据可视化的支持,它们所关注的是数据处理。但是,一图胜千言,尤其是在数据分析时。接下来,我们构建一个可视化分析图的Sp......
MATLAB用改进K-Means(K-均值)聚类算法数据挖掘高校学生的期末考试成绩|附代码数据
全文链接：http://tecdat.cn/?p=30832最近我们被客户要求撰写关于K-Means(K-均值)聚类算法的研究报告，包括一些图形和统计输出。本文首先阐明了聚类算法的基本概念，介绍了几种比较典型的聚类算法，然后重点阐述了K-均值算法的基本思想，对K-均值算法的优缺点做了分析，回顾了对K-均值改进......
【博学谷学习记录】超强总结，用心分享 | spark知识点总结2
【博学谷IT技术支持】Action动作算子reduce:通过func函数聚集RDD中的所有元素，这个功能必须是可交换且可并联的collect:在驱动程序中，以数组的形式返回数据集的所有元素count:返回RDD的元素个数first:返回RDD的第一个元素（类似于take(1))take:返回一个由数据集的前n个元......
Windows 配置 Hadoop and Spark
一JDK环境配置由于项目用的JDK17，所以单独给Hadoop配了JDK11，建议直接配置JAVA_HOME环境变量为JDK11，因为后面Spark需要用到JAVA_HOME下载JDK11链接：https://www.oracle.com/java/technologies/javase/jdk11-archive-downloads.html目前Hadoop和Spark兼容JDK11和JDK8单独修改Had......
聚类算法：ISODATA算法 ——kmeans算法升级版，不知道k也可以，但是需要你自己指定其他参数
当K值的大小不确定时，可以使用ISODATA算法。ISODATA的全称是迭代自组织数据分析法。在K均值算法中，聚类个数K的值需要预先人为地确定，并且在整个算法过程中无法更改。而当遇到高维度、海量的数据集时，人们往往很难准确地估计出K的大小。ISODATA算法就是针对这个问题进行了改进，它的思想......
spark 任务运行原理
调优概述在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用......
spark RDD底层原理
RDD底层实现原理RDD是一个分布式数据集，顾名思义，其数据应该分部存储于多台机器上。事实上，每个RDD的数据都以Block的形式存储于多台机器上，下图是Spark的RDD存储架构图，其中每个Executor会启动一个BlockManagerSlave，并管理一部分Block；而Block的元数据由Driver节点的BlockManagerMaster......
spark context stop use with as
调用方法：withsession.SparkStreamingSession('CC_Traffic_Realtime',ssc_time_windown)asss_session:kafkaStreams=ss_session.get_direct_stream(TOPICNAME)kafkaStreams.transform(xxxx)...ss_session.ready_to_go()实现方......

spark Bisecting k-means（二分K均值算法）

Bisecting k-means（二分K均值算法）

相关文章

赞助商

阅读排行