首页 > 其他分享 >二十二、【机器学习】【非监督学习】- OPTICS (Ordering Points To Identify the Clustering Structure)

二十二、【机器学习】【非监督学习】- OPTICS (Ordering Points To Identify the Clustering Structure)

时间:2024-07-25 11:25:55浏览次数:12  
标签:Clustering Ordering 算法 距离 学习 监督 Points 聚类 OPTICS

系列文章目录

第一章 【机器学习】初识机器学习

第二章 【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression)

第三章 【机器学习】【监督学习】- 支持向量机 (SVM)

第四章【机器学习】【监督学习】- K-近邻算法 (K-NN)

第五章【机器学习】【监督学习】- 决策树 (Decision Trees)

第六章【机器学习】【监督学习】- 梯度提升机 (Gradient Boosting Machine, GBM)

第七章 【机器学习】【监督学习】-神经网络 (Neural Networks)

第八章【机器学习】【监督学习】-卷积神经网络 (CNN)

第九章【机器学习】【监督学习】-循环神经网络 (RNN)

第十章【机器学习】【监督学习】-线性回归

第十一章【机器学习】【监督学习】-局部加权线性回归 (Locally Weighted Linear Regression, LWLR)

第十二章【机器学习】【监督学习】- 岭回归 (Ridge Regression)

十三、【机器学习】【监督学习】- Lasso回归 (Least Absolute Shrinkage and Selection Operator)

十四、【机器学习】【监督学习】- 弹性网回归 (Elastic Net Regression)

十五、【机器学习】【监督学习】- 神经网络回归 

十六、【机器学习】【监督学习】- 支持向量回归 (SVR)

十七、【机器学习】【非监督学习】- K-均值 (K-Means) 

十八、【机器学习】【非监督学习】- DBSCAN (Density-Based Spatial Clustering of Applications with Noise)十九、【机器学习】【非监督学习】- 层次聚类 (Hierarchical Clustering)二十、【机器学习】【非监督学习】- 均值漂移 (Mean Shift)

二十一、【机器学习】【非监督学习】- 谱聚类 (Spectral Clustering)​​ 


目录

系列文章目录

一、非监督学习

(一)、定义

(二)、训练流程

(三)、基本算法分类

 二、OPTICS (Ordering Points To Identify the Clustering Structure)

(一)、定义

(二)、基本概念

(三)、训练过程

1.初始化

2.构建密度可达图

3.生成聚类顺序

4.提取聚类

5.结果分析

6.后处理

(四)、特点

(五)、适用场景

(六)、扩展

三、总结


一、非监督学习

(一)、定义

        非监督学习是一种机器学习方法,它处理的是没有标签的数据集。与监督学习不同,非监督学习算法不需要知道数据的正确分类或目标值。它的目标是通过数据内部的结构和模式来推断出有意义的信息,如数据的分布、聚类、降维或异常检测等。

(二)、训练流程

        非监督学习的训练流程通常包含以下几个步骤:

  1. 数据准备:收集和预处理数据,可能包括数据清洗、缺失值处理、数据标准化或归一化等。

  2. 模型选择:根据问题的性质选择合适的非监督学习算法。

  3. 参数初始化:初始化模型的参数,这一步对于某些算法至关重要,如K-means聚类。

  4. 模型训练:使用无标签数据训练模型,寻找数据中的结构或模式。这一过程可能涉及到迭代优化,直到满足某个停止准则,如收敛或达到预定的迭代次数。

  5. 结果评估:评估模型的结果,这通常比监督学习更具有挑战性,因为没有明确的“正确答案”。评估可能基于内在指标(如聚类的紧凑度和分离度)或外在指标(如与已知分类的比较)。

  6. 应用模型:使用训练好的模型对新数据进行分析或预测,如对新数据进行聚类或降维。

(三)、基本算法分类

        非监督学习算法可以大致分为以下几类:

  1. 聚类算法:用于将数据点分组到不同的簇中,常见的算法有K-means、层次聚类、DBSCAN、Gaussian Mixture Models等。

  2. 降维算法:用于减少数据的维度,同时尽可能保留数据的结构信息,常见的算法有PCA(主成分分析)、t-SNE(t-分布随机邻域嵌入)、自编码器等。

  3. 关联规则学习:用于发现数据集中项之间的关系,如Apriori算法和Eclat算法。

  4. 异常检测算法:用于识别数据集中的异常点或离群点,如Isolation Forest、Local Outlier Factor等。

  5. 自组织映射(SOM):一种神经网络模型,用于数据可视化和聚类,可以将高维数据映射到低维空间中。

  6. 生成模型:如变分自编码器(VAE)和生成对抗网络(GAN),它们可以生成类似训练数据的新样本。

        非监督学习在很多场景中都有广泛应用,如客户细分、图像识别、自然语言处理、生物信息学和推荐系统等。由于其灵活性和在处理大量未标注数据时的优势,非监督学习是数据科学和人工智能领域的重要组成部分。


 二、OPTICS (Ordering Points To Identify the Clustering Structure)

(一)、定义

      OPTICS是一种基于密度的聚类算法,旨在发现任意形状的聚类,并且能够处理噪声和离群点。不同于传统的聚类算法,如k-means,OPTICS不需要用户预先知道聚类的数量。它的主要目标是确定数据点的密度分布,从而识别出数据的聚类结构。

(二)、基本概念

     在OPTICS中,有几个关键的概念:

  • 核心距离(Core Distance):对于一个数据点p和一个最小邻域参数MinPts,核心距离是点p周围至少包含MinPts个邻近点的最小区间的半径。如果点p周围没有足够的邻近点,则其核心距离定义为无穷大。

  • 可达距离(Reachability Distance):从一个点p到另一个点q的可达距离,是基于点p的核心距离和点p到点q的实际距离计算的。它定义为点p到点q的距离和点p的核心距离的最大值。

  • 直接密度可达(Direct Density-Reachable):如果点q在点p的ε邻域内,且点p是核心点(即点p周围有至少MinPts个邻近点),那么我们说点q直接密度可达点p。

(三)、训练过程

1.初始化
  •  参数设定:首先,需要设定两个关键参数:
    • MinPts:指定一个点被认为是“核心点”所需要的最近邻居的最小数目。
    • ε:用于确定邻域大小的半径,尽管在OPTICS中,ε的值不像在DBSCAN中那样严格,因为OPTICS算法最终会考虑一系列的ε值。
2.构建密度可达图
  •  邻域查找:对于数据集中的每个点p,计算其ε邻域内的所有点,即所有距离不超过ε的点集合。

  • 核心距离计算:如果点p的邻域内点的数量大于或等于MinPts,则点p是一个核心点。点p的核心距离被定义为其ε邻域中第MinPts个最近点的距离。如果点p不是核心点,其核心距离设为无穷大。

  • 可达距离计算:对于点p的每个邻域点q,计算q的可达距离,定义为max{core-distance(p), dist(p,q)},其中dist(p,q)pq之间的实际距离。如果q不在pε邻域内,q的可达距离为无穷大。 

3.生成聚类顺序
  •  起始点选择:选择一个未被访问过的点作为起始点。

  • 密度可达性探索:对于当前点p

    • 如果p是一个核心点,从p开始,找到所有直接密度可达于p的点,并将这些点按可达距离递增的顺序添加到一个链表中。
    • 对于链表中的每个点q,检查是否可以通过p更新其可达距离(即,通过p到达q的可达距离是否小于q已有的可达距离)。如果可以更新,更新q的可达距离,并标记pq的前驱点。
  • 迭代过程:重复步骤6,直到链表为空或者所有点都已经被访问过。 

4.提取聚类
  •  聚类边界确定:完成上述过程后,将得到一个按照可达距离排序的点列表。在该列表中,聚类内部的点通常具有较小的可达距离,而聚类之间的点则具有较大的可达距离。聚类边界可以通过观察可达距离的显著增加来确定。

  • 聚类提取:从排序的点列表中,选择一个起点,并沿着可达距离连续的部分形成一个聚类,直到遇到可达距离的突变点,这标志着聚类的结束。然后,从下一个未分配的点开始重复此过程,直到所有点都被分配到聚类中。 

5.结果分析
  •  结果可视化:通常,将点的可达距离绘制成图表,可以直观地看到聚类的形成和边界。此外,可以使用不同的颜色或标记来可视化不同聚类中的点。 
6.后处理
  •  参数调整和聚类优化:如果初始的MinPtsε参数导致了不满意的结果,可以尝试不同的参数组合,或使用自动化的方法(如HDBSCAN)来优化聚类结果。 

整个训练过程体现了OPTICS算法如何通过计算和比较点之间的密度关系,逐步构建出数据的聚类结构。这种方法的优势在于能够处理任意形状的聚类,并且对噪声点和离群点有较好的容忍度。

(四)、特点

  • 无需预知聚类数量:这是OPTICS的一个显著优点,因为它能够自适应地确定聚类的数量和形状。

  • 处理噪声和离群点:由于其基于密度的特性,OPTICS能够有效地区分噪声点和真正的聚类点。

  • 可变密度聚类:OPTICS能够发现具有不同密度的聚类,这对于真实世界数据集来说是非常实用的。

(五)、适用场景

  • 异常检测:由于OPTICS能够区分密度较低的区域,它适用于检测数据集中的异常或离群点。

  • 数据探索:对于未知结构的数据集,OPTICS可以帮助发现数据的内在聚类结构,不需要先验知识。

  • 图像和视频分析:在处理像素或帧序列时,OPTICS能够识别出具有相似特征的区域或事件。

(六)、扩展

  • HDBSCAN:是OPTICS的一个流行扩展,它提供了更自动化的参数选择和更高效的聚类过程,尤其适用于大数据集。

  • LOF (Local Outlier Factor):虽然不是聚类算法,但LOF基于与OPTICS类似的密度可达性概念,用于检测数据集中的离群点。

三、总结

OPTICS及其变种在数据挖掘、机器学习和模式识别中扮演着重要角色,尤其是在处理具有复杂结构和噪声的真实数据时。

标签:Clustering,Ordering,算法,距离,学习,监督,Points,聚类,OPTICS
From: https://blog.csdn.net/xgq8217/article/details/140631382

相关文章

  • 鲁棒核稀疏子空间聚类模型(Robust Kernel Sparse Subspace Clustering, RKSSC)
    鲁棒核稀疏子空间聚类模型(RobustKernelSparseSubspaceClustering,RKSSC)引言鲁棒核稀疏子空间聚类模型(RKSSC)是一种用于处理高维数据的聚类技术,特别设计用于对抗数据中的噪声和异常值。该模型结合了稀疏表示、核方法和鲁棒优化策略,以在非线性子空间中寻找数据点的稀疏......
  • [题解] CF19D Points
    [题解]CF19DPointsCF19DPoints在一个笛卡尔坐标系中,定义三种操作:addxy:在坐标系上标记一个点\((x,y)\),保证\((x,y)\)在添加前不在坐标系上。removexy:移除点\((x,y)\),保证\((x,y)\)在移除前已在坐标系上。findxy:找到所有已标记的\((x',y')\),需满......
  • Clustering to Reduce Spatial Data Set Size
    Read/citethe paperhere.Inthistutorial,IdemonstratehowtoreducethesizeofaspatialdatasetofGPSlatitude-longitudecoordinatesusingPythonanditsscikit-learnimplementationoftheDBSCANclusteringalgorithm.Allmycodeisinthis IPytho......
  • CF576C Points on Plane
    牛逼套路看inf眼都不会,看眼题解就会了(bushi题目让我们求一堆点按某种顺序排列后相邻点曼哈顿距离总和小于等于\(2.5\times10^9\)然后很牛的东西:把坐标\((x,y)\)当作区间\((l,r)\),那欲求式就等于每一个区间的\((l_1,r_1)\)移到另一个相邻区间的\((l2,r2)\)的步数的总和了,于是很......
  • [题解]CF988D Points and Powers of Two
    思路首先发现选出的数最多\(3\)个,考虑反证法。假设选出了四个数\(a,b,c,d\),并令:\[|a-b|=2^{x_1},|b-c|=2^{x_2},|c-d|=2^{x_3}\]又因为,\(|a-c|,|b-d|\)也都是\(2\)的次幂,那么有\(x_1=x_2=x_3\)。于是\(|a-d|=3\times2^{x_0}\neq2^k\)。在......
  • CF988D Points and Powers of Two 题解
    题目传送门题目大意题目描述在坐标线上有nnn个不同的点,第iii......
  • kubernetes-外部数据库服务映射至集群内-Service与Endpoints的关系
    创建yaml文件配置数据库信息kind:ServiceapiVersion:v1metadata:name:mysql-svcnamespace:ops-systemspec:type:ClusterIP #Kubernetes将为此服务随机分配一个集群内部的IP地址ClusterIP类型的服务只能在集群内部访问,提供了一个内部访问的固定IP地址,不对......
  • 腾讯冷启动论文阅读《Enhancing User Interest based on Stream Clustering and Memor
    背景用户冷启动一直是推荐系统中的一个难题,新用户(或非活跃用户)由于缺少行为数据,模型预估不准确。为了改善用户冷启动,腾讯提出了UserInterestEnhancement(UIE)模型(论文中提到也可以用于item的冷启动)。基本思想是先对用户聚类,然后用userembedding检索最相似的k个聚类中心来表示......
  • 【VTKExamples::PolyData】第五十四期 SelectVisiblePoints
    很高兴在雪易的CSDN遇见你 VTK技术爱好者QQ:870202403   公众号:VTK忠粉前言本文分享VTK样例SelectVisiblePoints,并解析接口vtkSelectVisiblePoints,希望对各位小伙伴有所帮助!感谢各位小伙伴的点赞+关注,小易会继续努力分享,一起进步!你的点赞就是我的动力(^U^)ノ~YO1. ......
  • E.Power of Points
    题目:链接:https://www.luogu.com.cn/problem/CF1857Eorhttps://codeforces.com/problemset/problem/1857/E思路我的思路可能比较复杂:首先由于覆盖的是整点,那么可以想到排序后用前缀和,比如143-->134然后由于区间[a,b]的整点数是b-a+1,那么该点的数量就是注意:这里的......