机器学习——聚类（K-Means）

那是什么 无监督学习——聚类

聚类是基于相似对象将一组对象分组为类/类别的过程。聚类是一部分 无监督学习 .这种方法通常用于确定业务决策，特别是在基于来自集群的数据预测来预测正确的业务策略时。聚类还可用于异常检测、客户细分和改善客户服务 监督学习。

例如，客户细分，在一个企业中，有成千上万的客户，公司希望保持有生产力的客户数量（可以显着提高客户满意度）。收入公司）以及改进收入公司，可以采取的战略旨在提供交易相同的客户或准备交易根据每个客户的规格。这就是集群作为确定这些战略决策的“工具”或“指南”的地方。

另一个例子，用于增加 监督学习 .每个具有 10 万条记录的集群都有一个逻辑回归。如果训练模型是基于每个分段而不是一次训练 10 万条记录的训练模型，分类会更有效。

聚类算法包括：

平面算法 （通常以 随机（部分）分区 ，例如 K-Means 聚类

分层算法 （berbentuk 自下而上、凝聚式、自上而下）

Ilustrasi proses dari Unsupervised Learning

K-Means 聚类和业务目标

K-Means 聚类是一个基于数据分组的过程距离 .每个集群中都会有质心（中点）。接近中点的数据将是分配在那个集群中。

K-Means 聚类的工作原理

有数据，确定K个（簇）的个数，比如我们选择3个簇，我们就确定点在哪里质心她。
将计算欧几里得距离（在质心和其他 [数据值] 点之间）。
距离接近质心 , 将分配给其中一个质心最近的
会不断迭代，直到所有数据值都分配到现有的集群。
一个数据肯定会进入一个集群，它不能进入两个或更多集群
重复步骤 2-5，直到“饱和点”。

一种方法 欧几里德距离（距离度量）：

评估集群质量

惯性（肘法）

（使用折线图说明）如何确定K的个数是根据第一次“故障”后，数据的折线图会更平坦。 K的最佳数量是在肘点（骨折点）。如何确定肘法基于 惯性值 .数量越少 惯性值 而且越多簇的数量也会越来越多，但必须知道'故障'点/弯头点。这种方法的困难在于有时原始形状与“肘部”可视化不相似。因此，使用了另一种方法，即 剪影分数。

2. 剪影评分法

这种方法比肘部方法具有更清晰的聚类范围。数字越高 剪影分数 会好起来的。这意味着可以对每个集群进行评分（一个集群有一个分数，两个集群有一个分数，等等）。最佳集群将基于 最高轮廓分数 从现有范围 . 这种方法实际上要确定的平均值 簇内距离 和最小均值 集群间距离 （集群中点之间的距离尽可能小，但集群中一个点与另一点之间的距离足够远）。

使用 Python 构建 K-Means（Google 协作）

https://bit.ly/hands-on_clustering

上动手在这种情况下，将向来自商城客户的数据提供与以下相关的资料：年龄、性别、年收入和消费分数。从这些数据中，将首先搜索和识别描述性统计数据以查看 独特的价值。 接下来，将分析如何 对绘图 从数据中确定相关矩阵。在可以识别和解释相关矩阵之后，我们将看到哪些变量是线性相关的。然后，将分析如何肘法和 剪影分数 来识别簇号。从这个分析中，我们将得到适合的并且可以用来做出业务决策的集群的类型和数量。

本文链接：https://www.qanswer.top/38212/35572013

标签：分数,机器,Means,距离,集群,聚类,数据
From： https://www.cnblogs.com/amboke/p/16710771.html

机器学习——聚类（K-Means）

机器学习——聚类（K-Means）

相关文章

赞助商

阅读排行