1.13 - 动手学聚类算法

时间：2024-08-08 20:38:29浏览次数：22

标签：学聚类 iris plt 1.13 聚簇算法聚类 import sklearn

1. 基于距离的k-means聚类，需要人工提供聚簇数量K

1.1 通过肘方法确定最佳聚簇数量

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_blobs, load_iris
from sklearn.metrics import silhouette_score
import warnings

warnings.filterwarnings("ignore")
np.printoptions(suppress=True)

# 解决中文乱码
plt.rcParams["font.sans-serif"] = ["SimHei"]
plt.rcParams["axes.unicode_minus"] = False

# 1. 获取待聚簇数据
# 对鸢尾花数据集进行聚簇（众所周知，该数据有三类花朵）
X = load_iris(return_X_y=False).data
# 生成高斯聚簇分布的数据点, n_feature-样本特征数量; n_sample-样本数量
# X, y = make_blobs(n_samples=1500, n_features=2, centers=4, random_state=170)

# 2. 对待聚类数据归一化，不归一化，有的特征 数据过大会影响求解方差和最终聚簇结果。
x = StandardScaler().fit_transform(X)

# 3. 肘方法
scores1 = []
scores2 = []
for i in range(2, 8):
    # 通过 k-means 方法初始化聚簇质心，并重复实验 n_init 次，防止初始聚簇质心不好陷入局部最优
    model = KMeans(n_clusters=i, init='k-means++', n_init=10)
    model.fit(x)

    # model.cluster_centers_  # 查看聚簇质心

    # 1）按照轮廓系数选取最佳聚簇数K， 轮廓系数越大越好
    y = model.labels_  # 每个数据最终归纳到哪个簇
    score1 = silhouette_score(x, y)

    # 2）按照 聚簇方差损失 选取最佳聚簇数量，聚簇方差越小越好
    score2 = model.inertia_  # 各个点的聚簇方差总和

    scores1.append(score1)
    scores2.append(score2)

# 作图查看
plt.figure(num=1)
plt.plot(range(2, 8), scores1)
plt.xlabel("聚簇数量")
plt.ylabel("轮廓系数")
plt.title("肘方法 - 轮廓系数")

plt.figure(num=2)
plt.plot(range(2, 8), scores2)

plt.xlabel("聚簇数量")
plt.ylabel("所有数据点的方差和")
plt.title("肘方法 - 所有样本点聚簇方差总和")

# 显示图形
plt.show()

分析：

　　1）对于容易聚类的数据集如人工生成的，通过轮廓系数和聚簇方差都比较容易的选出最佳聚簇数K；但是对于比较难区分的数据集如鸢尾花数据集，很难看出来是三个簇。

　　2）上述代码实现，聚簇方差因为是每个样本点的方差总和，所以实际选取的最佳聚簇数K应该是 损失比较平滑的起点，而不是原理中的什么幅度最大的那个。( 看图 )

2. 基于密度的 DBSCAN 聚类

　　相比于前面的聚类方法，基于密度的聚类，如果超参数选好了效果还是相当不错的，但是一般选不好。所以 常用上面两个聚类而不用密度聚类。如下：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans, DBSCAN
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_blobs, load_iris
from sklearn.metrics import silhouette_score
import warnings

warnings.filterwarnings("ignore")
np.printoptions(suppress=True)

x_iris = load_iris(return_X_y=False).data
x_gauss, y = make_blobs(n_samples=1500, n_features=2, centers=4, random_state=170)

x_iris = StandardScaler().fit_transform(x_iris)
x_gauss = StandardScaler().fit_transform(x_gauss)

model = DBSCAN(eps=0.5, min_samples=5)
labels_iris = model.fit_predict(x_iris)
labels_gauss = model.fit_predict(x_gauss)

print('DBSCAN算法在鸢尾花数据集上最终聚簇为{}类'.format(len(np.unique(labels_iris))))  # 3 簇
print('DBSCAN算法在人生生成Gauss数据集上最终聚簇为{}类'.format(len(np.unique(labels_gauss))))  # 2 簇

分析：最终鸢尾花聚簇数为 3，人工生成Gauss分布数据集聚簇数为 2 ，显然很扯淡。

标签：学聚类,iris,plt,1.13,聚簇,算法,聚类,import,sklearn
From： https://www.cnblogs.com/zhangzhenw/p/18349581

【探索数据结构与算法】——深入了解双向链表（图文详解）
目录一、双向链表的基本概念二、双向链表的结构三、双向链表的基本操作实现方法 1.双向链表的初始化2.双向链表的头插3.双向链表的尾插6.查找节点7.在指定位置之前插入节点8.删除指定位置节点9.打印链表数据 10.双向链表销毁四、完整代码实现 LIst.h......
LLVM中四种寄存器分配算法及开启选项
在LLVM编译器中，一共有四种寄存器分配算法：BasicRegisterAllocator、FastRegisterAllocator、PBQPRegisterAllocator、GreedyRegisterAllocator。FastRegisterAllocator这种分配器是局部的，作用于各个基本块，它尽量地将值保持在寄存器中并重用它们。BasicRegisterAl......
算法小总结-图论
拓扑排序[HNOI2015]菜肴制作////Createdbyfxzon2024/8/3.//#include<bits/stdc++.h>usingnamespacestd;intans[1008611];#defineintlonglongboolTopSort(vector<vector<int>>&G,intn,vector<int>&inDegree){......
代码随想录算法训练营第64天 | 图论：Floyd 算法+A * 算法
97.小明逛公园https://kamacoder.com/problempage.php?pid=1155Floyd算法精讲https://www.programmercarl.com/kamacoder/0097.小明逛公园.html#floyd-算法精讲Floyd算法精讲问题总结：双向道路；路径规划；多个起点到多个终点核心思想：动态规划确定dp数组和下标含义：grid......
揭秘人工智能三大基石：数据、算法与算力的深度融合
在科技日新月异的今天，人工智能（AI）作为引领未来科技浪潮的核心力量，正以前所未有的速度改变着我们的生活、工作乃至整个社会的面貌。人工智能的快速发展并非偶然，而是建立在三大坚实基石之上：数据、算法与计算能力。这三者相辅相成，共同构筑了人工智能技术的基石，推动了AI技术的不断突破......
2024-8-7 算法学习
P6136【模板】普通平衡树（数据加强版）题意：1，插入一个数；2，删除一个数3，查询一个数的排名4，查询第x个数5，查询x的前驱和后继重点在于分裂split和合并merge操作：1：分裂为X[0,x],Y[x+1,n],后rt=merge(X,x,Y)2：分裂为X[0,x-1],Y[x,x],Z[x+1,n]后Y=merge(Y.l,Y.r),后rt=merge(X,Y,Z);3......
paxos算法详解
1分布式一致性：共识算法对于一个分布式系统来说，保障集群中所有节点的数据完全相同（即一致性）是很重要的，随着多节点的引入，这影响的是整个分布式系统对外服务的表象一致性。也就是说，一个分布式系统想要做到完全的一致性，需要对外表现为顺序一致性，即各个节点上的操作顺序都一致。而在......
【Python机器学习】利用AdaBoost元算法提高分类性能——基于单层决策树构建弱分类器
单层决策树（也称决策树桩）是一种简单的决策树。它基于单个特征来做决策，由于这棵树只有一次分裂过程，因此它实际上就是一个树桩。在构造AdaBoost代码时，首先通过一个简单数据集来确保在算法上一切就绪：fromnumpyimport*defloadSimpData():datMat=matrix([[1.0,2.1],......
机器学习算法之一线性回归
1.线性预测函数定义左侧为真实值，右侧为预测值与误差的和，其中为权重矩阵。2.目标函数的推导2.1高斯分布函数误差符合独立同分布假设，服从均值为0的高斯分布：将线性函数带入，得：......
文心一言 VS 讯飞星火 VS chatgpt （320）-- 算法导论22.3 12题
十二、证明：我们可以在无向图G上使用深度优先搜索来获得图G的连通分量，并且深度优先森林所包含的树的棵数与G的连通分量数量相同。更准确地说，请给出如何修改深度优先搜索来让其给每个结点赋予一个介于1和k之间的整数值v.cc，这里k是G的连通分量数，使得u.cc=v.cc当且仅当结点u和结......

1.13 - 动手学聚类算法

相关文章

赞助商

阅读排行