首页 > 其他分享 >机器学习——聚类(K-Means)

机器学习——聚类(K-Means)

时间:2022-09-20 13:58:33浏览次数:89  
标签:分数 机器 Means 距离 集群 聚类 数据

机器学习——聚类(K-Means)

那是什么 无监督学习——聚类

聚类是基于相似对象将一组对象分组为类/类别的过程。聚类是一部分 无监督学习 .这种方法通常用于确定业务决策,特别是在基于来自集群的数据预测来预测正确的业务策略时。聚类还可用于异常检测、客户细分和改善客户服务 监督学习。

例如,客户细分,在一个企业中,有成千上万的客户,公司希望保持有生产力的客户数量(可以显着提高客户满意度)。 收入 公司)以及改进 收入 公司,可以采取的战略旨在提供 交易 相同的客户或准备 交易 根据每个客户的规格。这就是集群作为确定这些战略决策的“工具”或“指南”的地方。

另一个例子,用于增加 监督学习 .每个具有 10 万条记录的集群都有一个逻辑回归。如果训练模型是基于每个分段而不是一次训练 10 万条记录的训练模型,分类会更有效。

聚类算法包括:

  • 平面算法 (通常以 随机(部分)分区 ,例如 K-Means 聚类

  • 分层算法 (berbentuk 自下而上、凝聚式、自上而下)

Ilustrasi proses dari Unsupervised Learning

K-Means 聚类和业务目标

K-Means 聚类是一个基于数据分组的过程 距离 .每个集群中都会有 质心 (中点)。接近中点的数据将是 分配 在那个集群中。

  • K-Means 聚类的工作原理

  1. 有数据,确定K个(簇)的个数,比如我们选择3个簇,我们就确定点在哪里 质心 她。
  2. 将计算欧几里得距离(在质心和其他 [数据值] 点之间)。
  3. 距离 接近 质心 , 将分配给其中一个 质心 最近的
  4. 会不断迭代,直到所有数据值都 分配 到现有的集群。
  5. 一个数据肯定会进入一个集群,它不能进入​​两个或更多集群
  6. 重复步骤 2-5,直到“饱和点”。

一种方法 欧几里德距离(距离度量):

评估集群质量

  1. 惯性(肘法)

(使用折线图说明)如何确定K的个数是根据第一次“故障”后,数据的折线图会更平坦。 K的最佳数量是在肘点(骨折点)。如何确定 肘法 基于 惯性值 .数量越少 惯性值 而且越多簇的数量也会越来越多,但必须知道'故障'点/弯头点。这种方法的困难在于有时原始形状与“肘部”可视化不相似。因此,使用了另一种方法,即 剪影分数。

2. 剪影评分法

这种方法比肘部方法具有更清晰的聚类范围。数字越高 剪影分数 会好起来的。这意味着可以对每个集群进行评分(一个集群有一个分数,两个集群有一个分数,等等)。最佳集群将基于 最高轮廓分数 从现有范围 . 这种方法实际上要确定的平均值 簇内距离 和最小均值 集群间距离 (集群中点之间的距离尽可能小,但集群中一个点与另一点之间的距离足够远)。

使用 Python 构建 K-Means(Google 协作)

https://bit.ly/hands-on_clustering

动手 在这种情况下,将向来自商城客户的数据提供与以下相关的资料:年龄、性别、年收入和消费分数。从这些数据中,将首先搜索和识别描述性统计数据以查看 独特的价值。 接下来,将分析如何 对绘图 从数据中确定相关矩阵。在可以识别和解释相关矩阵之后,我们将看到哪些变量是线性相关的。然后,将分析如何 肘法剪影分数 来识别簇号。从这个分析中,我们将得到适合的并且可以用来做出业务决策的集群的类型和数量。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/38212/35572013

标签:分数,机器,Means,距离,集群,聚类,数据
From: https://www.cnblogs.com/amboke/p/16710771.html

相关文章

  • python机器学习(第一章 Python机器学习基础)
    第一章Python机器学习基础基础:Python官网:https://www.python.org/doc/;历史版本下载与维护信息:https://www.python.org/downloads/Anaconda官网:https://www.anacond......
  • 机器学习一般流程
     预备:把实际问题转化为机器学习问题,即能够从现有的数据中学的某种规律,从而解决实际问题(预测或分类)机器学习是数据和模型的结合。  一.获取数据:人工合成、爬虫、数据......
  • 智能机器人系统
    V0.2版本更新内容获取当前人员顺序接口增加自定义假期的接口增加了设定开始人员接口增加了人员交换接口获取人员顺序方式get路由/getOrder结果返回人员顺序......
  • 【视频】机器学习交叉验证CV原理及R语言主成分PCA回归分析犯罪率|数据共享
    全文链接:http://tecdat.cn/?p=24671原文出处:拓端数据部落公众号交叉验证是避免过度拟合和很好地理解预测模型性能的最有效技术之一。相关视频:机器学习交叉验证CV原理及R......
  • 机器学习的机器学习?不,当我弄清楚发生了什么时,ML 笑了
    机器学习的机器学习?不,当我弄清楚发生了什么时,ML笑了fromsablediffusion这是一个鼓舞人心的介绍的占位符,关于机器学习有多神奇以及我有多想学习它。插入改变世界、帮......
  • 为什么Kubernetes和容器与机器学习密不可分?
    原文出自infosecurity作者:RebeccaJames京东云开发者社区编译当前,数字化转型的热潮在IT领域发展的如火如荼,越来越多的企业投身其中,机器学习和人工智能等现代技术的融合......
  • 机器学习模型
    机器学习模型在MySkill继续学习,最后教授的材料是关于机器学习的。在这篇文章中,我将分享机器学习的一个概念或一个粗略的想法。我想分享一下如何一步一步地在python中构......
  • 晶振频率、时钟周期、状态周期、机器周期、指令周期和总线周期的关系
    一、晶振频率1、英文全称:frequencyoscillate;2、定义:晶体振荡器的固有频率,不能改变;3、如果外接12Mhz晶振,则晶振频率12Mhz。二、时钟周期1、英文全称:ClockCycle,为晶......
  • 《概率机器人》课后习题 第3章
    importnumpyasnpimportmatplotlib.pyplotaspltfrommatplotlib.patchesimportEllipsefrommatplotlib.patchesimportCircle第一题第1问为了方便,把状态记......
  • 读《概率机器人》第三章
    § 1卡尔曼滤波KF概述自己总结:基础的卡尔曼滤波完成了这样的一件事:在一系列线性的前提条件下,在状态转移模型具有正态分布、测量模型具有正态分布的情况下,给出了一个满......