首页 > 其他分享 >1.11 - 聚类

1.11 - 聚类

时间:2024-04-04 23:24:11浏览次数:25  
标签:1.11 聚簇 邻域 簇内 ----- 密度 聚类

1. 聚类是啥

  聚类是一种 无监督学习 算法,聚类会将数据集中的数据分成不同的簇,使得簇内的数据相似性尽可能大,簇间的相似性尽可能小。

2. 聚类算法

2.1 K-means

  算法思想:事先假设数据最终会聚成 K 个簇,初始随机选取K个点作为聚簇中心,聚簇完成后选取每个簇的质心作为新的聚簇点重新聚簇,直到损失函数不再降低。K-means最终的要求达到 簇内紧密,簇间分散 的状态,最小化(Loss_function): K个簇的簇内方差累加和。

  算法缺陷

    1)K值得选取,K值是事先瞎猜得,并不准 ----- 肘方法,K由小到大,最终得loss方差下降最明显得分界点被认为是 最佳K值。

    2)初始随机选取的K个聚类中心可能会影响最终的聚簇结果 ----- K-meas++ ,数据中距离越远的点,被选为下一个聚簇中心的 概率 越大。

    3)计算质心计算量比较大 ----- Mini Batch K-means,对原始数据集随机抽样做K-meas,虽然精度略有损失,但只要抽样抽得够好,最终结果也在接受范围内。

    4)用求均值得方法得到簇得质心坐标 ----- 改用中值(中位数)

2.2 DBSCAN

  基于距离的聚类,在面对特殊得样本分布如:笑脸特征的数据集 时,并不能很好的完成分类任务,所以,采用基于密度的方式进行聚类。

  【 DBSCAN基于密度聚类的优势在于 可以自动确定最终的聚簇数量。】

  思想实现

    每次选取未被标记类别的点,这个点以及所有密度相连的点都被标记为同一个聚簇类别,直到数据集中只剩下噪声点。

 

    核心点:点的 ε 邻域内包含至少 Min-pts 个样本点

    边界点:本身非核心点,但是在其它核心点的 ε 邻域内。

    噪声点:既非核心点,也非边界点。

 

    密度相连:核心点与其 ε 邻域中的点

    密度可达:核心点与核心点之间,可以通过 ε 邻域互相到达。

    密度相连:两个密度可达的核心点的 ε 邻域中的任一点(包含边界点)都是 密度相连。

  

  需要调节的超参

    1) ε ,过小=》所有的数据点都变成噪音;过大=》所有的数据点都被聚成同一个簇。DBSCAN虽然不必显示的设置 聚簇个数,但是 ε 的大小会影响聚簇个数。

  :实现对数据特征进行归一化处理,更容易找到合适的超参 ε 。

3. 聚类效果评价指标

  轮廓系数:

    簇内平均距离a,最近簇间距离b,轮廓系数 s = (b - a)/ max{a, b} ,轮廓系数在 [-1,1] 范围内,轮廓系数越大,样本的聚簇效果越好。

 

标签:1.11,聚簇,邻域,簇内,-----,密度,聚类
From: https://www.cnblogs.com/zhangzhenw/p/18114993

相关文章

  • k-均值聚类算法 Primary
    目录案例——区分好坏苹果(有Key)案例——自动聚类(无Key)k-均值聚类算法(英文:k-meansclustering)定义:k-均值聚类算法的目的是:把n个点(可以是样本的一次观察或一个实例)划分到k个聚类中,使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类,以之作为聚类的标准。案例——区分好坏苹......
  • R语言生态学种群空间点格局分析:聚类泊松点过程对植物、蚂蚁巢穴分布数据可视化
    全文链接:https://tecdat.cn/?p=33676原文出处:拓端数据部落公众号点模式分析(点格局分析)是一组用于分析空间点数据的技术。在生态学中,这种类型的分析可能在客户的几个情境下出现,但对数据生成方式做出了特定的假设,因此让我们首先看看哪些生态数据可能与点模式分析相关或不相关。......
  • R语言K-Means(K均值聚类)和层次聚类算法对微博用户特征数据研究
    全文链接:https://tecdat.cn/?p=32955原文出处:拓端数据部落公众号本文就将采用K-means算法和层次聚类对基于用户特征的微博数据帮助客户进行聚类分析。首先对聚类分析作系统介绍。其次对聚类算法进行文献回顾,对其概况、基本思想、算法进行详细介绍,再是通过一个仿真实验具体来强化......
  • GPT-SoVITS教程,接入酒馆AI,SillyTavern-1.11.5,让AI女友声若幽兰
    本次分享一下如何将GPT-SoVITS接入SillyTavern-1.11.5项目,让让AI女友声若幽兰,首先明确一下,SillyTavern-1.11.5只是一个前端项目,它没有任何大模型文本生成能力,所以后端必须有一个api服务来流式生成对话文本,这里选择koboldcpp。首先看一下简单的项目运行架构图:这里SillyTavern作......
  • 在Flink 1.11中,assignTimestampsAndWatermarks方法已经被新的方法assignTimestamps和a
    在Flink1.11中,assignTimestampsAndWatermarks方法已经被新的方法assignTimestamps和assignWatermarks所替代。这是为了更好地将时间戳和水位线的定义分离开来以下是使用新API的示例代码:importorg.apache.flink.api.common.eventtime.WatermarkStrategy;importorg.apache.fli......
  • Paper Digest|基于在线聚类的自监督自蒸馏序列推荐模型
    论文标题:LeaveNoOneBehind:OnlineSelf-SupervisedSelf-DistillationforSequentialRecommendation作者姓名:韦绍玮、吴郑伟、李欣、吴沁桐、张志强、周俊、顾立宏、顾进杰组织单位:蚂蚁集团录用会议:WWW2024ResearchTrack本文作者:韦绍玮|蚂蚁集团高级算法工......
  • 数据分享|MATLAB、R基于Copula方法和k-means聚类的股票选择研究上证A股数据|附代码数
    全文链接:http://tecdat.cn/?p=31733最近我们被客户要求撰写关于Copula的研究报告,包括一些图形和统计输出。Copula方法是测度金融市场间尾部相关性比较有效的方法,而且可用于研究非正态、非线性以及尾部非对称等较复杂的相依特征关系因此,Copula方法开始逐渐代替多元GARCH模型的相......
  • R语言k-Shape时间序列聚类方法对股票价格时间序列聚类|附代码数据
    原文链接:http://tecdat.cn/?p=3726最近我们被客户要求撰写关于时间序列聚类的研究报告,包括一些图形和统计输出。本文我们将使用k-Shape时间序列聚类方法检查与我们有业务关系的公司的股票收益率的时间序列企业对企业交易和股票价格在本研究中,我们将研究具有交易关系的公司的......
  • C#,人工智能,机器学习,聚类算法,训练数据集生成算法、软件与源代码
    摘要:本文简述了人工智能的重要分支——机器学习的核心算法之一——聚类算法,并用C#实现了一套完全交互式的、可由用户自由发挥的,适用于聚类算法的训练数据集生成软件——Clustering。用户使用鼠标左键(拖动)即可生成任意形状,任意维度,任意簇数及各种数据范围的训练数据集,同时也可以......
  • SPSS大学生网络购物行为研究:因子分析、主成分、聚类、交叉表和卡方检验
    全文链接:https://tecdat.cn/?p=35377原文出处:拓端数据部落公众号随着互联网的普及和电子商务的快速发展,网络购物已成为大学生日常生活中不可或缺的一部分。大学生作为网络购物的主体力量,其消费观念、行为特征以及影响因素对于电子商务行业的发展具有重要的研究价值。因此,本文旨......