首页 > 其他分享 >【scikit-learn基础】--『监督学习』之 均值聚类

【scikit-learn基础】--『监督学习』之 均值聚类

时间:2024-01-14 10:12:16浏览次数:19  
标签:均值 -- scikit train learn axes 聚类 test 质心

聚类算法属于无监督学习,其中最常见的是均值聚类scikit-learn中,有两种常用的均值聚类算法:
一种是有名的K-means(也就是K-均值)聚类算法,这个算法几乎是学习聚类必会提到的算法;
另一个是均值偏移聚类,它与K-means各有千秋,只是针对的应用场景不太一样,但是知名度远不如K-Means

本篇介绍如何在scikit-learn中使用这两种算法。

1. 算法概述

1.1. K-Means

K-means算法起源于1967年,由James MacQueen和J. B. Hartigan提出。
它的基本原理是是将n个点划分为K个集群,使得每个点都属于离其最近的均值(中心点)对应的集群。

K-Means算法主要包含2个部分:

  1. 距离公式:通常采用欧几里得距离来计算数据点与质心之间的距离

\(d(X_i, C_j) = ||X_i - C_j||^2\) 其中,\(X_i\)是数据点,\(C_j\)是质心。

  1. 目标函数:目标是最小化所有数据点与所属簇的质心之间的距离平方和

\(J = \sum_{j=1}^k \sum_{i=1}^{N_j} ||X_i - C_j||^2\) 其中,\(N_j\)表示第\(j\)个簇中的样本数量。

1.2. 均值漂移

均值漂移算法最早是由Fukunaga等人在1975年提出的。
它的基本原理是对每一个数据点,算法都会估算其周围点的密度梯度,然后沿着密度上升的方向移动该点,直至达到密度峰值。

均值漂移算法主要有3个步骤:

  1. 核函数估计数据点的密度:常用的核函数比如高斯核,

\(K(x) = \exp(-||x||^2 / (2h^2))\) 其中,\(h\)为带宽参数,控制核的宽度。

  1. 均值漂移向量:也就是对于每个数据点,计算其周围点的密度梯度
  2. 迭代更新:根据均值漂移向量,每个数据点会沿着密度上升的方向移动,更新自己的位置

2. 创建样本数据

利用scikit-learn中的样本生成器,创建一些用于聚类的数据。

import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

X, y = make_blobs(n_samples=1000, centers=5)
plt.scatter(X[:, 0], X[:, 1], marker="o", c=y, s=25)

plt.show()

image.png
生成了包含5个类别的1000条样本数据。

3. 模型训练

首先,划分训练集和测试集。

from sklearn.model_selection import train_test_split

# 分割训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

按照8:2的比例划分了训练集测试集

3.1. K-Means

对于K-Means算法来说,需要指定聚类的数目,通过观察数据,我们指定聚类的数目5
这里的样本数据比较简单,能够一下看出来,实际情况下并不会如此容易的知道道聚类的数目是多少,
常常需要多次的尝试,才能得到一个比较好的聚类数目,也就是K的值。

基于上面的数据,我们设置5个簇,看看聚类之后的质心在训练集和测试集上的表现。

from sklearn.cluster import KMeans

# 定义
reg = KMeans(n_clusters=5, n_init="auto")

# 训练模型
reg.fit(X_train, y_train)

# 绘制质心
_, axes = plt.subplots(nrows=1, ncols=2, figsize=(10, 4))
markers = ["x", "o", "^", "s", "*"]
centers = reg.cluster_centers_

axes[0].scatter(X_train[:, 0], X_train[:, 1], marker="o", c=y_train, s=25)
axes[0].set_title("【训练集】的质心位置")

axes[1].scatter(X_test[:, 0], X_test[:, 1], marker="o", c=y_test, s=25)
axes[1].set_title("【测试集】的质心位置")

for idx, c in enumerate(centers):
    axes[0].plot(c[0], c[1], markers[idx], markersize=10)
    axes[1].plot(c[0], c[1], markers[idx], markersize=10)

plt.show()

image.png

3.2. 均值漂移

均值漂移聚类,事先是不用指定聚类的数目的,通过调整它的bandwidth参数,
可以训练出拥有不同数目质心的模型。

下面,设置了bandwidth=5,训练之后得到了拥有3个质心的模型。

from sklearn.cluster import MeanShift

# 定义
reg = MeanShift(cluster_all=False, bandwidth=5)

# 训练模型
reg.fit(X, y)

# 绘制质心
_, axes = plt.subplots(nrows=1, ncols=2, figsize=(10, 4))
markers = ["x", "o", "^", "s", "*"]
centers = reg.cluster_centers_
print(len(centers))

axes[0].scatter(X_train[:, 0], X_train[:, 1], marker="o", c=y_train, s=25)
axes[0].set_title("【训练集】的质心位置")

axes[1].scatter(X_test[:, 0], X_test[:, 1], marker="o", c=y_test, s=25)
axes[1].set_title("【测试集】的质心位置")

for idx, c in enumerate(centers):
    axes[0].plot(c[0], c[1], markers[idx], markersize=10)
    axes[1].plot(c[0], c[1], markers[idx], markersize=10)

plt.show()

image.png
它把左下角的3类比较接近的样本数据点算作一类。
通过调整 bandwidth参数,也可以得到和 K-Means 一样的结果,
有兴趣的话可以试试,大概设置 bandwidth=2 左右的时候,可以得到5个质心,与上面的K-Means算法的结果类似。

4. 总结

K-Means均值漂移聚类都是强大的聚类工具,各有其优缺点。

K-Means 的优势是简单、快速且易于实现,当数据集是密集的,且类别之间有明显的分离时,效果非常好;
不过,它需要预先设定簇的数量k,且对初始质心的选择敏感,所以,对于不是凸形状或者大小差别很大的簇,效果并不好。

均值漂移聚类的优势在于不需要预先知道簇的数量,可以自适应地找到数据的“模式”,对噪声和异常值也有很好的鲁棒性。
不过,与K-Means相比,它需要选择合适的带宽参数,对高维数据可能不太有效,且计算复杂度较高。

最后,对于这两种均值聚类算法来说,选择哪种取决于数据的性质和应用的需求。

标签:均值,--,scikit,train,learn,axes,聚类,test,质心
From: https://www.cnblogs.com/wang_yb/p/17963388

相关文章

  • 基于协方差矩阵自适应演化策略(CMA-ES)的高效特征选择
    特征选择是指从原始特征集中选择一部分特征,以提高模型性能、减少计算开销或改善模型的解释性。特征选择的目标是找到对目标变量预测最具信息量的特征,同时减少不必要的特征。这有助于防止过拟合、提高模型的泛化能力,并且可以减少训练和推理的计算成本。如果特征N的数量很小,那么穷......
  • GitHub创建新仓库
    第一步、右上角点击【+】,选择【Newrepository】 第二步、设置一下仓库的基本信息在如下图的红框位置,输入仓库的名称、描述以及是否公开。第三步、滑到最下面,点击【Createrepository】,仓库就创建好了 ......
  • autocd快捷命令
    快捷命令 L直线M移动C圆EL椭圆XL射线轴线RO旋转E删除H填充TR修剪EX延伸PO点S拉伸U返回DDI直径标注DAN角度标注OP系统选项设置A圆弧T多行文字B块定义I块插入W定义块文件CO复制MI镜像O偏移F倒直角或圆角D标注样式DLI线......
  • pandas典型应用
    #header默认为0,即以第一列为列名,这里设为None,意味不设置第一行为列名;df11=pd.read_table(url,header=None)df11.head()#names=***,可以自定义设置列名user_cols=['id','quantity','name','choice','price']df=pd.read_table(url,header=None......
  • 网工人在职场中光有技术就够了?
    IT人在职场中,专业技能当然是基本功,而且也是不可或缺的基石,但如果你认为只要有专家级别的技术就够了,那你的事业发展将会有所局限,如何能为仕途何锦上添花,我将从三个方面给大家分享你需要什么样的”综合能力”。01技术相关在IT网络领域,思科确实有着举足轻重的地位,。但......
  • 每日一练 | 华为认证真题练习Day164
    1、当两台BGP邻居协商的HOLDTime参数为0时,则不发送Keeplive报文。A.正确B.错误2、ospf路由协议中,bandwidth-reference命令的单位是mbps。A.正确B.错误3、在OSPF广播或者NBMA网络类型中,ROUTERPRIORITY大的设备不一定会成为DR。A.正确B.错误4、在广播或nbma网络上,并非所有的......
  • 网工内推 | 信息安全主管,CISP/CISSP认证优先,最高25K
    01武汉华康世纪医疗股份有限公司招聘岗位:网络安全主管职责描述:1、推进公司信息/网络安全管理体系规划、建设、持续改进,促进信息安全管理的推行落地,保障网络、系统与数据安全;2、维护管理信息/网络管理软件,设备如:防火墙、IPS、堡垒机、AD域等;3、负责公司信息/网络安全(风险预防、安......
  • 【月伴流星】Win10 LTSC 2021 完整版+商店版+适量精简版多合一安装版2024.01
    采用微软官方2021.11发布的Windows10企业版LTSC2021初始版制作,集成KB5033372KB5011050等2023年12月最新补丁,系统版本号升级至19044.3803恢复NETFramework3.5系统支持,恢复IE11系统支持启用SMB1.0共享,打印等系统支持集成VC2005-2022_x86/x64、DirectX_9.0c_x86/x64等系......
  • C#获取FTP服务器上的文件
    在文件上传到FTP服务器时会出现没传上去的情况,我不知道为什么会出现这种情况,不知怎么解决就写了段程序,目的是执行完上传以后,去服务器读一遍,看一下有没有上传成功,没成功的话在传一次首先看下我的FTP服务器页面以及文件我框住的是文件名和文件目录我为了方便看到结果,将查出的数据放到......
  • C#创建及读取DAT文件操作
    *.DAT从后缀名上也能理解其中的含义即:data文件,数据文件;这个文件有的可以用记事本工具打开,但是加密后就不一定了。很多程序都创建dat文件来保存设定。创建一个只有自己才能解析得dat文件,并且可以读取和写入,写一个类,它可以创建一个只有使用这个类才能解析得dat文件。同时读取或写入......