机器学习-无监督机器学习-密度聚类DBSCAN-19

时间：2023-12-24 23:12:30浏览次数：36

标签：DBSCAN 机器 19 核心距离 MeanShift minPts 聚类

1. DBSCAN
2. OPTICS
2. MeanShift

1. DBSCAN

Density based clustering
DBSCAN不要求我们指定cluster簇的数量，避免了异常值，并且在任意形状和大小的cluster簇中工作得非常好。它没有质心，聚类簇是通过将相邻的点连接在一起的过程形成的。

超参数：
Epsilon (ɛ)：设置的最大半径。
最小点数目(minPts)：在一个邻域的半径内minPts数的邻域被认为是一个簇。请记住，初始点包含在minPts中。

核心点：在其近邻距离内至少有minPts个数据点。

对核心点的邻域内的每个点进行评估，以确定它是否在epsilon距离内有minPts (minPts包括点本身)。如果该点满足minPts标准，它将成为另一个核心点，cluster簇将扩展。如果一个点不满足minPts标准，它成为边界点。

离群点:这些点不是近邻点，也不是边界点。这些点位于低密度地区。

2. OPTICS

Ordering Points To Identify Cluster Structure
目标是识别聚类的内部结构

这个算法本身核心并不直接划分数据到不同的聚类簇。它仅生成一个关于可达距离（纵轴）图形，然后再去读取这个图形做进一步的聚类。这个图形本质上记录了数据点被处理的顺序（横轴），而
不是数据点的具体划分。这是与DBSCAN最大的不同。
可达距离图：

在DBCSAN算法中需要输入两个参数：epsilon和minPts ，选择不同的参数会导致最终聚类的结果千差万别，因此DBCSAN对于输入参数过于敏感。OPTICS算法的提出就是为了帮助DBSCAN算法选择合适的参数，降低输入参数的敏感度。

两个重要的概念：
核心距离：是确定一个给定点是核心点的半径最小值。如果给定点不是一个核心点，那么它的核心距离是无穷大。

可达距离：
定义相对其它数据点q。点p和q之间的可达距离是p点的核心距离与p和q之间的欧氏距离的最大值 max(core_dist(p), eula(p, q))

仔细品味这两张可达距离云图

2. MeanShift

均值漂移，在目标追踪中应用广泛。本身其实是一种基于密度的聚类算法。
计算某一点A与其周围半径R内的向量距离的平均值M，计算出该点下一步漂移（移动）的方向（A=M+A）

MeanShift向量表示区域中k个样本点相对于点x求偏移量再平均，求出来的向量指向概率密度梯度的方向（指向真实质心方向）。

MeanShift的扩展：
不同的簇包含的数据看成是正太分布采样得到的。

标签：DBSCAN,机器,19,核心,距离,MeanShift,minPts,聚类
From： https://www.cnblogs.com/cavalier-chen/p/17925031.html

2023-2024-1 20231319《计算机基础与程序设计》第十三周学习总结
2023-2024-120231300《计算机基础与程序设计》第十三周学习总结作业信息这个作业属于哪个课程2023-2024-1-计算机基础与程序设计这个作业要求在哪里2023-2024-1计算机基础与程序设计第x周作业这个作业的目标《C语言程序设计》第12章教材学习内容总结从基本......
人工智能算法原理与代码实战：从机器学习到人工智能
1.背景介绍人工智能（ArtificialIntelligence,AI）是计算机科学的一个分支，研究如何让计算机模拟人类的智能。人工智能的目标是让计算机能够理解自然语言、认识环境、学习新知识、解决问题、作出决策等。人工智能的发展涉及到多个领域，包括机器学习、深度学习、计算机视觉、自然语言处......
人工智能算法原理与代码实战：从自然语言处理到机器翻译
1.背景介绍人工智能（ArtificialIntelligence,AI）是一门研究如何让计算机模拟人类智能的学科。自然语言处理（NaturalLanguageProcessing,NLP）是人工智能的一个分支，旨在让计算机理解、生成和处理人类语言。机器翻译（MachineTranslation,MT）是自然语言处理的一个重要应用，旨在将一种语......
人工智能算法原理与代码实战：强化学习在机器人控制中的应用
1.背景介绍人工智能（ArtificialIntelligence,AI）是一门研究如何让计算机模拟人类智能的学科。强化学习（ReinforcementLearning,RL）是一种人工智能技术，它允许计算机代理（agents）通过与环境（environment）的互动来学习。机器人控制（RoboticsControl）是一种应用强化学习的领域，它涉及到机器人......
机器码生成器
首先看下页面代码如下privatevoidbtn_Create_Click(objectsender,EventArgse){stringuuid=GetUuid();stringjiqima=GenerateMD5(uuid).ToUpper();tb_IdCard.Text=jiqima;}///<summary>......
CF contest 1909 Pinely Round 3 (Div. 1 + Div. 2) 题解（Vanilla的掉分赛）
CFcontest1909PinelyRound3(Div.1+Div.2)Vanilla的掉分赛绪言PinelyRound3(Div.1+Div.2)-Codeforces\[\color{purple}\large\textbf{世界上只有一种真正的英雄主义，}\]\[\color{red}\large\textbf{就是认清了生活的真相后还依然热爱它。}\]\[\color{gray}......
Microsoft Azure AI 机器学习笔记-1
机器学习基础：数据与建模：数据统计和数学建模是处理数据和描述现实情况的关键工具。观测值是记录的数据实例，而特征是描述观测对象的属性。标签则代表监督式学习中的已知输出值。学习类型：监督式学习包括回归（预测数值标签）和分类（预测类别标签），其中分类又分为二元分类和多类......
2023-2024-1 20211319《计算机基础与程序设计》第十三周学习总结
2023-2024-120211319《计算机基础与程序设计》第十三周学习总结作业信息这个作业属于哪个课程<班级的链接>（如2023-2024-1-计算机基础与程序设计）这个作业要求在哪里https://www.cnblogs.com/rocedu/p/9577842.html#WEEK13这个作业的目标<写上具体方面>作业正......
CodeForces 1909E Multiple Lamps
洛谷传送门CF传送门感觉这个题比较难蚌。发现按\(1\simn\)最后可以把\(1\simn\)中的所有平方数点亮。所以\(n\ge20\)就直接输出\(1\simn\)。考虑\(n\le19\)。猜测合法的方案（即按完后亮灯数\(\le\left\lfloor\frac{n}{5}\right\rfloor\)的方案，不考虑\((......
CodeForces 1909D Split Plus K
洛谷传送门CF传送门设最后每个数都相等时为\(t\)。那么一次操作变成了合并两个数\(x,y\)，再增加\(x+y-k\)。于是每个\(a_i\)可以被表示成\(b_it-(b_i-1)k\)的形式，化简得\(a_i-k=b_i(t-k)\)。因为\(t-k\)对于每个\(i\)都相同，又因为我们的目标是......

机器学习-无监督机器学习-密度聚类DBSCAN-19

1. DBSCAN

2. OPTICS

2. MeanShift

相关文章

赞助商

阅读排行