系列文章目录
第二章 【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression)
第四章【机器学习】【监督学习】- K-近邻算法 (K-NN)
第五章【机器学习】【监督学习】- 决策树 (Decision Trees)
第六章【机器学习】【监督学习】- 梯度提升机 (Gradient Boosting Machine, GBM)
第七章 【机器学习】【监督学习】-神经网络 (Neural Networks)
第十一章【机器学习】【监督学习】-局部加权线性回归 (Locally Weighted Linear Regression, LWLR)
第十二章【机器学习】【监督学习】- 岭回归 (Ridge Regression)
十三、【机器学习】【监督学习】- Lasso回归 (Least Absolute Shrinkage and Selection Operator)
十四、【机器学习】【监督学习】- 弹性网回归 (Elastic Net Regression)
十七、【机器学习】【非监督学习】- K-均值 (K-Means)
十八、【机器学习】【非监督学习】- DBSCAN (Density-Based Spatial Clustering of Applications with Noise)十九、【机器学习】【非监督学习】- 层次聚类 (Hierarchical Clustering)二十、【机器学习】【非监督学习】- 均值漂移 (Mean Shift)
二十一、【机器学习】【非监督学习】- 谱聚类 (Spectral Clustering)
目录
二、OPTICS (Ordering Points To Identify the Clustering Structure)
一、非监督学习
(一)、定义
非监督学习是一种机器学习方法,它处理的是没有标签的数据集。与监督学习不同,非监督学习算法不需要知道数据的正确分类或目标值。它的目标是通过数据内部的结构和模式来推断出有意义的信息,如数据的分布、聚类、降维或异常检测等。
(二)、训练流程
非监督学习的训练流程通常包含以下几个步骤:
-
数据准备:收集和预处理数据,可能包括数据清洗、缺失值处理、数据标准化或归一化等。
-
模型选择:根据问题的性质选择合适的非监督学习算法。
-
参数初始化:初始化模型的参数,这一步对于某些算法至关重要,如K-means聚类。
-
模型训练:使用无标签数据训练模型,寻找数据中的结构或模式。这一过程可能涉及到迭代优化,直到满足某个停止准则,如收敛或达到预定的迭代次数。
-
结果评估:评估模型的结果,这通常比监督学习更具有挑战性,因为没有明确的“正确答案”。评估可能基于内在指标(如聚类的紧凑度和分离度)或外在指标(如与已知分类的比较)。
-
应用模型:使用训练好的模型对新数据进行分析或预测,如对新数据进行聚类或降维。
(三)、基本算法分类
非监督学习算法可以大致分为以下几类:
-
聚类算法:用于将数据点分组到不同的簇中,常见的算法有K-means、层次聚类、DBSCAN、Gaussian Mixture Models等。
-
降维算法:用于减少数据的维度,同时尽可能保留数据的结构信息,常见的算法有PCA(主成分分析)、t-SNE(t-分布随机邻域嵌入)、自编码器等。
-
关联规则学习:用于发现数据集中项之间的关系,如Apriori算法和Eclat算法。
-
异常检测算法:用于识别数据集中的异常点或离群点,如Isolation Forest、Local Outlier Factor等。
-
自组织映射(SOM):一种神经网络模型,用于数据可视化和聚类,可以将高维数据映射到低维空间中。
-
生成模型:如变分自编码器(VAE)和生成对抗网络(GAN),它们可以生成类似训练数据的新样本。
非监督学习在很多场景中都有广泛应用,如客户细分、图像识别、自然语言处理、生物信息学和推荐系统等。由于其灵活性和在处理大量未标注数据时的优势,非监督学习是数据科学和人工智能领域的重要组成部分。
二、OPTICS (Ordering Points To Identify the Clustering Structure)
(一)、定义
OPTICS是一种基于密度的聚类算法,旨在发现任意形状的聚类,并且能够处理噪声和离群点。不同于传统的聚类算法,如k-means,OPTICS不需要用户预先知道聚类的数量。它的主要目标是确定数据点的密度分布,从而识别出数据的聚类结构。
(二)、基本概念
在OPTICS中,有几个关键的概念:
-
核心距离(Core Distance):对于一个数据点p和一个最小邻域参数MinPts,核心距离是点p周围至少包含MinPts个邻近点的最小区间的半径。如果点p周围没有足够的邻近点,则其核心距离定义为无穷大。
-
可达距离(Reachability Distance):从一个点p到另一个点q的可达距离,是基于点p的核心距离和点p到点q的实际距离计算的。它定义为点p到点q的距离和点p的核心距离的最大值。
-
直接密度可达(Direct Density-Reachable):如果点q在点p的ε邻域内,且点p是核心点(即点p周围有至少MinPts个邻近点),那么我们说点q直接密度可达点p。
(三)、训练过程
1.初始化
- 参数设定:首先,需要设定两个关键参数:
MinPts
:指定一个点被认为是“核心点”所需要的最近邻居的最小数目。ε
:用于确定邻域大小的半径,尽管在OPTICS中,ε
的值不像在DBSCAN中那样严格,因为OPTICS算法最终会考虑一系列的ε
值。
2.构建密度可达图
-
邻域查找:对于数据集中的每个点
p
,计算其ε
邻域内的所有点,即所有距离不超过ε
的点集合。 -
核心距离计算:如果点
p
的邻域内点的数量大于或等于MinPts
,则点p
是一个核心点。点p
的核心距离被定义为其ε
邻域中第MinPts
个最近点的距离。如果点p
不是核心点,其核心距离设为无穷大。 -
可达距离计算:对于点
p
的每个邻域点q
,计算q
的可达距离,定义为max{core-distance(p), dist(p,q)}
,其中dist(p,q)
是p
和q
之间的实际距离。如果q
不在p
的ε
邻域内,q
的可达距离为无穷大。
3.生成聚类顺序
-
起始点选择:选择一个未被访问过的点作为起始点。
-
密度可达性探索:对于当前点
p
:- 如果
p
是一个核心点,从p
开始,找到所有直接密度可达于p
的点,并将这些点按可达距离递增的顺序添加到一个链表中。 - 对于链表中的每个点
q
,检查是否可以通过p
更新其可达距离(即,通过p
到达q
的可达距离是否小于q
已有的可达距离)。如果可以更新,更新q
的可达距离,并标记p
为q
的前驱点。
- 如果
-
迭代过程:重复步骤6,直到链表为空或者所有点都已经被访问过。
4.提取聚类
-
聚类边界确定:完成上述过程后,将得到一个按照可达距离排序的点列表。在该列表中,聚类内部的点通常具有较小的可达距离,而聚类之间的点则具有较大的可达距离。聚类边界可以通过观察可达距离的显著增加来确定。
-
聚类提取:从排序的点列表中,选择一个起点,并沿着可达距离连续的部分形成一个聚类,直到遇到可达距离的突变点,这标志着聚类的结束。然后,从下一个未分配的点开始重复此过程,直到所有点都被分配到聚类中。
5.结果分析
- 结果可视化:通常,将点的可达距离绘制成图表,可以直观地看到聚类的形成和边界。此外,可以使用不同的颜色或标记来可视化不同聚类中的点。
6.后处理
- 参数调整和聚类优化:如果初始的
MinPts
和ε
参数导致了不满意的结果,可以尝试不同的参数组合,或使用自动化的方法(如HDBSCAN)来优化聚类结果。
整个训练过程体现了OPTICS算法如何通过计算和比较点之间的密度关系,逐步构建出数据的聚类结构。这种方法的优势在于能够处理任意形状的聚类,并且对噪声点和离群点有较好的容忍度。
(四)、特点
-
无需预知聚类数量:这是OPTICS的一个显著优点,因为它能够自适应地确定聚类的数量和形状。
-
处理噪声和离群点:由于其基于密度的特性,OPTICS能够有效地区分噪声点和真正的聚类点。
-
可变密度聚类:OPTICS能够发现具有不同密度的聚类,这对于真实世界数据集来说是非常实用的。
(五)、适用场景
-
异常检测:由于OPTICS能够区分密度较低的区域,它适用于检测数据集中的异常或离群点。
-
数据探索:对于未知结构的数据集,OPTICS可以帮助发现数据的内在聚类结构,不需要先验知识。
-
图像和视频分析:在处理像素或帧序列时,OPTICS能够识别出具有相似特征的区域或事件。
(六)、扩展
-
HDBSCAN:是OPTICS的一个流行扩展,它提供了更自动化的参数选择和更高效的聚类过程,尤其适用于大数据集。
-
LOF (Local Outlier Factor):虽然不是聚类算法,但LOF基于与OPTICS类似的密度可达性概念,用于检测数据集中的离群点。
三、总结
OPTICS及其变种在数据挖掘、机器学习和模式识别中扮演着重要角色,尤其是在处理具有复杂结构和噪声的真实数据时。
标签:Clustering,Ordering,算法,距离,学习,监督,Points,聚类,OPTICS From: https://blog.csdn.net/xgq8217/article/details/140631382