机器学习——聚类(K-Means)
那是什么 无监督学习——聚类
聚类是基于相似对象将一组对象分组为类/类别的过程。聚类是一部分 无监督学习 .这种方法通常用于确定业务决策,特别是在基于来自集群的数据预测来预测正确的业务策略时。聚类还可用于异常检测、客户细分和改善客户服务 监督学习。
例如,客户细分,在一个企业中,有成千上万的客户,公司希望保持有生产力的客户数量(可以显着提高客户满意度)。 收入 公司)以及改进 收入 公司,可以采取的战略旨在提供 交易 相同的客户或准备 交易 根据每个客户的规格。这就是集群作为确定这些战略决策的“工具”或“指南”的地方。
另一个例子,用于增加 监督学习 .每个具有 10 万条记录的集群都有一个逻辑回归。如果训练模型是基于每个分段而不是一次训练 10 万条记录的训练模型,分类会更有效。
聚类算法包括:
- 平面算法 (通常以 随机(部分)分区 ,例如 K-Means 聚类
- 分层算法 (berbentuk 自下而上、凝聚式、自上而下)
Ilustrasi proses dari Unsupervised Learning
K-Means 聚类和业务目标
K-Means 聚类是一个基于数据分组的过程 距离 .每个集群中都会有 质心 (中点)。接近中点的数据将是 分配 在那个集群中。
- K-Means 聚类的工作原理
- 有数据,确定K个(簇)的个数,比如我们选择3个簇,我们就确定点在哪里 质心 她。
- 将计算欧几里得距离(在质心和其他 [数据值] 点之间)。
- 距离 接近 质心 , 将分配给其中一个 质心 最近的
- 会不断迭代,直到所有数据值都 分配 到现有的集群。
- 一个数据肯定会进入一个集群,它不能进入两个或更多集群
- 重复步骤 2-5,直到“饱和点”。
一种方法 欧几里德距离(距离度量):
评估集群质量
- 惯性(肘法)
(使用折线图说明)如何确定K的个数是根据第一次“故障”后,数据的折线图会更平坦。 K的最佳数量是在肘点(骨折点)。如何确定 肘法 基于 惯性值 .数量越少 惯性值 而且越多簇的数量也会越来越多,但必须知道'故障'点/弯头点。这种方法的困难在于有时原始形状与“肘部”可视化不相似。因此,使用了另一种方法,即 剪影分数。
2. 剪影评分法
这种方法比肘部方法具有更清晰的聚类范围。数字越高 剪影分数 会好起来的。这意味着可以对每个集群进行评分(一个集群有一个分数,两个集群有一个分数,等等)。最佳集群将基于 最高轮廓分数 从现有范围 . 这种方法实际上要确定的平均值 簇内距离 和最小均值 集群间距离 (集群中点之间的距离尽可能小,但集群中一个点与另一点之间的距离足够远)。
使用 Python 构建 K-Means(Google 协作)
https://bit.ly/hands-on_clustering
上 动手 在这种情况下,将向来自商城客户的数据提供与以下相关的资料:年龄、性别、年收入和消费分数。从这些数据中,将首先搜索和识别描述性统计数据以查看 独特的价值。 接下来,将分析如何 对绘图 从数据中确定相关矩阵。在可以识别和解释相关矩阵之后,我们将看到哪些变量是线性相关的。然后,将分析如何 肘法 和 剪影分数 来识别簇号。从这个分析中,我们将得到适合的并且可以用来做出业务决策的集群的类型和数量。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明
本文链接:https://www.qanswer.top/38212/35572013
标签:分数,机器,Means,距离,集群,聚类,数据 From: https://www.cnblogs.com/amboke/p/16710771.html