二十二、【机器学习】【非监督学习】- OPTICS (Ordering Points To Identify the Clustering Structure)

数据准备：收集和预处理数据，可能包括数据清洗、缺失值处理、数据标准化或归一化等。
模型选择：根据问题的性质选择合适的非监督学习算法。
参数初始化：初始化模型的参数，这一步对于某些算法至关重要，如K-means聚类。
模型训练：使用无标签数据训练模型，寻找数据中的结构或模式。这一过程可能涉及到迭代优化，直到满足某个停止准则，如收敛或达到预定的迭代次数。
结果评估：评估模型的结果，这通常比监督学习更具有挑战性，因为没有明确的“正确答案”。评估可能基于内在指标（如聚类的紧凑度和分离度）或外在指标（如与已知分类的比较）。
应用模型：使用训练好的模型对新数据进行分析或预测，如对新数据进行聚类或降维。

（三）、基本算法分类

非监督学习算法可以大致分为以下几类：

聚类算法：用于将数据点分组到不同的簇中，常见的算法有K-means、层次聚类、DBSCAN、Gaussian Mixture Models等。
降维算法：用于减少数据的维度，同时尽可能保留数据的结构信息，常见的算法有PCA（主成分分析）、t-SNE（t-分布随机邻域嵌入）、自编码器等。
关联规则学习：用于发现数据集中项之间的关系，如Apriori算法和Eclat算法。
异常检测算法：用于识别数据集中的异常点或离群点，如Isolation Forest、Local Outlier Factor等。
自组织映射（SOM）：一种神经网络模型，用于数据可视化和聚类，可以将高维数据映射到低维空间中。
生成模型：如变分自编码器（VAE）和生成对抗网络（GAN），它们可以生成类似训练数据的新样本。

非监督学习在很多场景中都有广泛应用，如客户细分、图像识别、自然语言处理、生物信息学和推荐系统等。由于其灵活性和在处理大量未标注数据时的优势，非监督学习是数据科学和人工智能领域的重要组成部分。

二、OPTICS (Ordering Points To Identify the Clustering Structure)

（一）、定义

OPTICS是一种基于密度的聚类算法，旨在发现任意形状的聚类，并且能够处理噪声和离群点。不同于传统的聚类算法，如k-means，OPTICS不需要用户预先知道聚类的数量。它的主要目标是确定数据点的密度分布，从而识别出数据的聚类结构。

（二）、基本概念

在OPTICS中，有几个关键的概念：

核心距离(Core Distance)：对于一个数据点p和一个最小邻域参数MinPts，核心距离是点p周围至少包含MinPts个邻近点的最小区间的半径。如果点p周围没有足够的邻近点，则其核心距离定义为无穷大。
可达距离(Reachability Distance)：从一个点p到另一个点q的可达距离，是基于点p的核心距离和点p到点q的实际距离计算的。它定义为点p到点q的距离和点p的核心距离的最大值。
直接密度可达(Direct Density-Reachable)：如果点q在点p的ε邻域内，且点p是核心点（即点p周围有至少MinPts个邻近点），那么我们说点q直接密度可达点p。

（三）、训练过程

1.初始化

参数设定：首先，需要设定两个关键参数：
- MinPts：指定一个点被认为是“核心点”所需要的最近邻居的最小数目。
- ε：用于确定邻域大小的半径，尽管在OPTICS中，ε的值不像在DBSCAN中那样严格，因为OPTICS算法最终会考虑一系列的ε值。

2.构建密度可达图

邻域查找：对于数据集中的每个点p，计算其ε邻域内的所有点，即所有距离不超过ε的点集合。
核心距离计算：如果点p的邻域内点的数量大于或等于MinPts，则点p是一个核心点。点p的核心距离被定义为其ε邻域中第MinPts个最近点的距离。如果点p不是核心点，其核心距离设为无穷大。
可达距离计算：对于点p的每个邻域点q，计算q的可达距离，定义为max{core-distance(p), dist(p,q)}，其中dist(p,q)是p和q之间的实际距离。如果q不在p的ε邻域内，q的可达距离为无穷大。

3.生成聚类顺序

起始点选择：选择一个未被访问过的点作为起始点。
密度可达性探索：对于当前点p：
- 如果p是一个核心点，从p开始，找到所有直接密度可达于p的点，并将这些点按可达距离递增的顺序添加到一个链表中。
- 对于链表中的每个点q，检查是否可以通过p更新其可达距离（即，通过p到达q的可达距离是否小于q已有的可达距离）。如果可以更新，更新q的可达距离，并标记p为q的前驱点。
迭代过程：重复步骤6，直到链表为空或者所有点都已经被访问过。

4.提取聚类

聚类边界确定：完成上述过程后，将得到一个按照可达距离排序的点列表。在该列表中，聚类内部的点通常具有较小的可达距离，而聚类之间的点则具有较大的可达距离。聚类边界可以通过观察可达距离的显著增加来确定。
聚类提取：从排序的点列表中，选择一个起点，并沿着可达距离连续的部分形成一个聚类，直到遇到可达距离的突变点，这标志着聚类的结束。然后，从下一个未分配的点开始重复此过程，直到所有点都被分配到聚类中。

5.结果分析

结果可视化：通常，将点的可达距离绘制成图表，可以直观地看到聚类的形成和边界。此外，可以使用不同的颜色或标记来可视化不同聚类中的点。

6.后处理

参数调整和聚类优化：如果初始的MinPts和ε参数导致了不满意的结果，可以尝试不同的参数组合，或使用自动化的方法（如HDBSCAN）来优化聚类结果。

整个训练过程体现了OPTICS算法如何通过计算和比较点之间的密度关系，逐步构建出数据的聚类结构。这种方法的优势在于能够处理任意形状的聚类，并且对噪声点和离群点有较好的容忍度。

（四）、特点

无需预知聚类数量：这是OPTICS的一个显著优点，因为它能够自适应地确定聚类的数量和形状。
处理噪声和离群点：由于其基于密度的特性，OPTICS能够有效地区分噪声点和真正的聚类点。
可变密度聚类：OPTICS能够发现具有不同密度的聚类，这对于真实世界数据集来说是非常实用的。

（五）、适用场景

异常检测：由于OPTICS能够区分密度较低的区域，它适用于检测数据集中的异常或离群点。
数据探索：对于未知结构的数据集，OPTICS可以帮助发现数据的内在聚类结构，不需要先验知识。
图像和视频分析：在处理像素或帧序列时，OPTICS能够识别出具有相似特征的区域或事件。

（六）、扩展

HDBSCAN：是OPTICS的一个流行扩展，它提供了更自动化的参数选择和更高效的聚类过程，尤其适用于大数据集。
LOF (Local Outlier Factor)：虽然不是聚类算法，但LOF基于与OPTICS类似的密度可达性概念，用于检测数据集中的离群点。

三、总结

OPTICS及其变种在数据挖掘、机器学习和模式识别中扮演着重要角色，尤其是在处理具有复杂结构和噪声的真实数据时。

标签：Clustering,Ordering,算法,距离,学习,监督,Points,聚类,OPTICS
From： https://blog.csdn.net/xgq8217/article/details/140631382

二十二、【机器学习】【非监督学习】- OPTICS (Ordering Points To Identify the Clustering Structure)

系列文章目录

一、非监督学习

（一）、定义

（二）、训练流程

（三）、基本算法分类

二、OPTICS (Ordering Points To Identify the Clustering Structure)

（一）、定义

（二）、基本概念

（三）、训练过程

1.初始化

2.构建密度可达图

3.生成聚类顺序

4.提取聚类

5.结果分析

6.后处理

（四）、特点

（五）、适用场景

（六）、扩展

三、总结

相关文章

赞助商

阅读排行