一、概述

当前人工智能技术实现的一种主要手段是机器学习，而机器学习能够解决的问题主要有三种：分类、聚类、回归，有监督的是分类，无监督的是聚类。所谓聚类，就是以一定的方法将一堆样本依它们本身的数据特性划分成不同的簇类，以达成不同的技术目的，k-means就是这样一种基础聚类算法。

二、算法原理

对给定的样本集，k-means基于迭代的思想，由聚集中心点划定簇集，簇集反过来确定新的聚集中心点，周而复始，最终获得最佳划分的簇集。k-means中的k即想要划定的簇数，它是一个超参数，需由人工事先指定。样本的簇集划归由它与各个聚集中心点的距离来确定，划归到距离最近的那一个，其中距离的计算一般采用欧氏距离；新划定的簇集则进一步计算质心作为新的聚集中心，质心即样本向量的均值 \(c=\left( \bar{x^{(1)}},\bar{x^{(2)}},...,\bar{x^{(n)}} \right)\)

算法描述
输入：样本集 \(T=\left\{ x_1,x_2,...,x_N \right\}\)，簇数k.
输出：质心集合 \(C=\left\{ c_1,c_2,...,c_k \right\}\)，划分样本集\(D=\left\{ D_1,D_2,...,D_k \right\}\).
(1) 任意选定k个样本作为初始聚集中心.
(2) 划分簇类
1)对T中数据，计算与各个聚集中心的距离.样本x与聚集中心c的距离为

\[d=\sqrt{\sum_{i=1}^{n}{(x^{(i)}-c^{(i)})^{2}}} \]

2)将样本划归到离得最近的聚集中心，形成簇类。
(3)计算质心作为聚集中心
对簇S，质心

\[c=\left( c^{(1)},c^{(2)},...,c^{(n)} \right) \]

其中

\(c^{(i)}=\frac{1}{M}\sum_{s=1}^{M}{x_{s}^{(i)}}\),\(M=\left| S \right|\).
(4)重复(2)-(3)步，直至质心不发生偏移或达到指定的迭代次数.

三、python实现

'''
由sklearn实现kmeans聚类。
'''

import numpy as np
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")

#初始化数据集
d1 = np.random.rand(18,2)
d2 = 1.5 + np.random.rand(17,2)
d3 = 3 + np.random.rand(20,2)
data = np.concatenate((d1,d2,d3),axis=0)

#定义kmeans模型，n_clusters为指定的簇数k
kmr = KMeans(n_clusters=3)

#数据计算
fit_kmr = kmr.fit(data)

#获取标签结果
rs_labels = fit_kmr.labels_

#获取每个簇类的中心点
rs_center_ids = fit_kmr.cluster_centers_

#绘图
#绘制数据点
plt.scatter(data[:,0],data[:,1],c=rs_labels,alpha=0.5)
#绘制质心
plt.scatter(rs_center_ids[:,0],rs_center_ids[:,1],c='red')

plt.show()

运行结果：

End.

标签：right,means,聚集,样本,聚类,质心,left
From： https://www.cnblogs.com/flyup/p/17076998.html

Python用KShape对时间序列进行聚类和肘方法确定最优聚类数k可视化|附代码数据
全文链接：http://tecdat.cn/?p=27078最近我们被客户要求撰写关于KShape的研究报告，包括一些图形和统计输出。时序数据的聚类方法，该算法按照以下流程执行。使用基于互相关......
【机器学习项目实战10例】（六）：基于聚类算法完成航空公司客户价值分析任务
......
人工智能算法进阶：SOM聚类的应用
OM即自组织映射，是一种用于特征检测的无监督学习神经网络。它模拟人脑中处于不同区域的神经细胞分工不同的特点，即不同区域具有不同的响应特征，而且这一过程是自动完成的。SO......
无监督学习之聚类
点头出品，必属精品！！！嘿嘿嘿(￣y▽,￣)╭![image]嗯~~~~，还是先从聚类到底是什么开始吧。一、聚类概述有关聚类的思考数据挖掘导论中提到过：聚类可以看做一种分类，它用类标号......
机器学习：聚类算法与无监督学习、模型评估标准
......
AI K-means算法对数据进行聚类分析-实验报告
1、问题描述及实验要求K-means算法对data中数据进行聚类分析（1）算法原理描述（2）算法结构（3）写出K-means具体功能函数（不能直接调用sklearn.cluster(Means)功能函数)具体函数功......
部分聚类算法简介及优缺点分析
之前项目有聚类的一些需求，现大致对一些聚类算法总结下：聚类是对一系列事物根据其潜在特征按照某种度量函数归纳成一个个簇的动作，使得簇内数据间的相似度尽......
R语言APRIORI关联规则、K-MEANS均值聚类分析中药专利复方治疗用药规律网络可视化|附代
最近我们被客户要求撰写关于中药专利复方治疗用药规律的研究报告，包括一些图形和统计输出。应用关联规则、聚类方法等数据挖掘技术分析治疗的中药专利复方组方配伍规律方法检......
基于Python的K-Means遥感影像聚类
importnumpyasnpfromsklearnimportclusterfromosgeoimportgdal,gdal_arrayimportmatplotlib.pyplotaspltgdal.UseExceptions()gdal.AllRegister()img......
Spark框架下均值漂移算法对舆情聚类的分析
知网链接原文链接张京坤，王怡怡软件导刊 2022年21卷第6期页码:141-146DOI：10.11907/rjdk.211889 中图分类号：TP274纸质出版日期：2022-06-15，收稿日期：2......

k-means聚类

一、概述

二、算法原理

三、python实现

相关文章

赞助商

阅读排行