首页 > 其他分享 >探索数据的内在结构:使用Scikit-Learn确定聚类数

探索数据的内在结构:使用Scikit-Learn确定聚类数

时间:2024-07-19 18:29:27浏览次数:15  
标签:Learn plt Scikit kmeans Gap 聚类 clusters sklearn

探索数据的内在结构:使用Scikit-Learn确定聚类数

在机器学习中,聚类是一种无监督学习方法,旨在发现数据的内在结构。一个关键问题是如何确定聚类数,即数据集中应该有多少个聚类。Scikit-Learn(简称sklearn),作为Python中广泛使用的机器学习库,提供了多种方法来帮助我们确定聚类数。本文将详细介绍这些方法,并提供详细的解释和代码示例。

1. 聚类数的重要性

在聚类分析中,确定聚类数是一个挑战。如果聚类数过多,可能会导致模型过于复杂,过拟合数据;如果聚类数过少,则可能无法捕捉数据的真实结构。因此,选择合适的聚类数对于聚类分析的成功至关重要。

2. 肘部法则(Elbow Method)

肘部法则是一种常用的确定聚类数的方法。它通过计算不同聚类数下的误差平方和(SSE)来选择最佳聚类数。

from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# 生成合成数据
X, _ = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

sse = []
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k, random_state=0)
    kmeans.fit(X)
    sse.append(kmeans.inertia_)

plt.plot(range(1, 11), sse, '-o')
plt.xlabel('Number of clusters')
plt.ylabel('SSE')
plt.title('Elbow Method')
plt.show()
3. 轮廓系数(Silhouette Coefficient)

轮廓系数衡量了聚类的效果,值的范围是[-1, 1]。值越大,表示聚类效果越好。

from sklearn.metrics import silhouette_score

silhouette_scores = []
for k in range(2, 11):
    kmeans = KMeans(n_clusters=k, random_state=0)
    kmeans.fit(X)
    score = silhouette_score(X, kmeans.labels_)
    silhouette_scores.append(score)

plt.plot(range(2, 11), silhouette_scores, '-o')
plt.xlabel('Number of clusters')
plt.ylabel('Silhouette Score')
plt.title('Silhouette Coefficient')
plt.show()
4. Gap统计量(Gap Statistic)

Gap统计量通过比较数据集的聚类和随机数据的聚类来评估聚类效果。

from sklearn_extra.cluster import KMedoids

# 生成合成数据
X, _ = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

kmedoids = KMedoids(n_clusters=2, random_state=0, method='louvians')
kmedoids.fit(X)

# 计算Gap统计量
from sklearn_extra.metrics import gap_statistic

gap, gap_std = gap_statistic(X, kmedoids.labels_, n_jobs=-1)
print(f"Gap: {gap}, Gap Standard Deviation: {gap_std}")
5. 戴维斯-库尔德兰德指数(Davies-Kulh-Levin Index)

戴维斯-库尔德兰德指数(DKL)是一种基于聚类内距离的聚类验证指标。

from sklearn.metrics import davies_kulhinsk_index

dkl_scores = []
for k in range(2, 11):
    kmeans = KMeans(n_clusters=k, random_state=0)
    kmeans.fit(X)
    score = davies_kulhinsk_index(X, kmeans.labels_)
    dkl_scores.append(score)

plt.plot(range(2, 11), dkl_scores, '-o')
plt.xlabel('Number of clusters')
plt.ylabel('DKL Index')
plt.title('Davies-Kulh-Levin Index')
plt.show()
6. 确定聚类数的策略

在实际应用中,确定聚类数通常需要综合考虑多种方法的结果。以下是一些策略:

  • 结合多种方法:同时使用肘部法则、轮廓系数、Gap统计量和DKL指数等方法,综合考虑它们的结果。
  • 领域知识:结合领域知识来确定聚类数,例如在文本聚类中,可以根据主题数量来估计聚类数。
  • 交叉验证:使用交叉验证来评估不同聚类数下的聚类效果。
7. 结论

通过本文的介绍,你应该对如何在sklearn中确定聚类数有了基本的了解。选择合适的聚类数是聚类分析的关键步骤,通过使用sklearn提供的工具,可以有效地提高聚类分析的效果。

8. 进一步学习

为了更深入地了解聚类分析和确定聚类数的方法,推荐阅读相关的书籍和论文,以及sklearn的官方文档。

通过本文,我们希望能够帮助读者掌握sklearn中确定聚类数的方法,并在自己的项目中应用这些技术来提升聚类分析的效果。


请注意,本文提供了一个关于如何在sklearn中确定聚类数的概述,包括代码示例和关键概念的解释。如果需要更深入的内容,可以进一步扩展每个部分的详细说明和示例。

标签:Learn,plt,Scikit,kmeans,Gap,聚类,clusters,sklearn
From: https://blog.csdn.net/2401_85761762/article/details/140557087

相关文章

  • FedNAS: Federated Deep Learning via Neural Architecture Search-_BaseLine-FedNAS
    背景与挑战:介绍FL,引出数据异构问题和数据不可见性,因此需要大量的人力来定制更好的模型架构,因为设备异构性,边缘设备需要更高的计算负担和通信成本。介绍解决数据异构的相关工作,指出这些工作需要强大的先验假设。预定义的模型不一定是最优的贡献:1.提出FedNAS方法,在边缘设备之间......
  • FINCH: Enhancing Federated Learning With Hierarchical Neural Architecture Search
    背景与挑战:介绍FL联邦学习,指出两个联邦学习的缺点::::danger1.预定义的架构容易使模型训练陷入局部次优解,导致训练性能低下2.开发一个足够精确和小的模型来部署在客户端是很复杂的,这需要在迭代的试错过程中付出大量的人力:::(手动设计更高效的体系结构在很大程度上依赖于人类......
  • Peaches: Personalized Federated Learning with Neural Architecture Search in Edge
    背景:介绍联邦学习,参数服务器和workers之间的关系挑战:1.预定义模型:太大的架构可能会导致过度拟合问题和workers不必要的计算开销,而太小的架构可能会导致低训练性能2.数据不可访问:数据不可访问导致不能设计出真正高效的架构在边缘计算中使用FL。需要考虑三种挑战:1.异构数据2......
  • Arena Learning: 构建大语言模型的数据飞轮
    大语言模型(LLMs)正在快速发展,但如何有效评估和持续改进这些模型仍面临巨大挑战。本文提出了一种名为ArenaLearning的创新方法,通过模拟聊天机器人竞技场来构建高效的数据飞轮,从而实现LLMs的持续优化。让我们深入了解这种方法的核心思想和关键技术。1.背景与挑战近年......
  • 计算机毕业设计Python+Tensorflow小说推荐系统 K-means聚类推荐算法 深度学习 Kears
    2、基于物品协同过滤推荐算法2.1、基于⽤户的协同过滤算法(UserCF)该算法利⽤⽤户之间的相似性来推荐⽤户感兴趣的信息,个⼈通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的⽬的进⽽帮助别⼈筛选信息,回应不⼀定局限于特别感兴趣的,特别不感兴趣信息的纪录也相......
  • Self-Supervised Learning for Point Clouds Data: A Survey
    摘要综述了自监督学习(SSL)在3D点云数据处理领域的最新进展,对现有SSL方法进行了细致的分类和评估,并在多个基准数据集上对代表性方法进行了性能比较。同时指出了现有研究的局限性,提出了未来研究的方向。Introduction文章主要是针对自监督学习的(SSL),详细阐述了3D点云数据由于其......
  • Self-supervised Learning for Pre-Training 3D Point Clouds: A Survey
    Abstract点云数据由于其紧凑的形式和表示复杂3D结构的灵活性而被广泛研究。点云数据准确捕获和表示复杂3D几何形状的能力使其成为广泛应用的理想选择,包括计算机视觉,机器人技术和自动驾驶,所有这些都需要了解底层空间结构。这种方法旨在从未标记的数据中学习通用和有用的点云表......
  • 机器学习:详解迁移学习(Transfer learning)
    详解迁移学习深度学习中,最强大的理念之一就是,有的时候神经网络可以从一个任务中习得知识,并将这些知识应用到另一个独立的任务中。所以例如,也许已经训练好一个神经网络,能够识别像猫这样的对象,然后使用那些知识,或者部分习得的知识去帮助您更好地阅读x射线扫描图,这就是所谓的迁移学......
  • Python回归、聚类、相关分析上海公租房租金满意度影响因素数据可视化
    全文链接:https://tecdat.cn/?p=37013原文出处:拓端数据部落公众号随着城市化进程的加速,住房问题日益成为城市居民关注的焦点。公租房作为政府为解决中低收入家庭住房困难而推出的一种重要住房保障形式,其租金水平、居住条件及租住体验直接关系到广大租户的切身利益和生活质量......
  • 机器学习 -> Machine Learning (III)
    1对抗学习对抗学习的目的是增加鲁棒性。对抗生成网络(GAN)包括生成器(Generator)和判别器(Discriminator)。如果目标是创建能够生成新内容的系统,那么生成器是希望得到并优化的模型,这是一个零和问题。1.1GenBGenB是对抗网络用于VQA的产物,如图添加了偏置模型和目标模型。训练......