首页 > 其他分享 >机器学习-无监督机器学习-密度聚类DBSCAN-19

机器学习-无监督机器学习-密度聚类DBSCAN-19

时间:2023-12-24 23:12:30浏览次数:36  
标签:DBSCAN 机器 19 核心 距离 MeanShift minPts 聚类

目录

1. DBSCAN

Density based clustering
DBSCAN不要求我们指定cluster簇的数量,避免了异常值,并且在任意形状和大小的cluster簇中工作得非常好。它没有质心,聚类簇是通过将相邻的点连接在一起的过程形成的。

超参数:
Epsilon (ɛ):设置的最大半径。
最小点数目(minPts):在一个邻域的半径内minPts数的邻域被认为是一个簇。请记住,初始点包含在minPts中。

核心点:在其近邻距离内至少有minPts个数据点。

对核心点的邻域内的每个点进行评估,以确定它是否在epsilon距离内有minPts (minPts包括点本身)。如果该点满足minPts标准,它将成为另一个核心点,cluster簇将扩展。如果一个点不满足minPts标准,它成为边界点。

离群点:这些点不是近邻点,也不是边界点。这些点位于低密度地区。

2. OPTICS

Ordering Points To Identify Cluster Structure
目标是识别聚类的内部结构

这个算法本身核心并不直接划分数据到不同的聚类簇。它仅生成一个关于可达距离(纵轴)图形,然后再去读取这个图形做进一步的 聚类。这个图形本质上记录了数据点被处理的顺序(横轴),而
不是数据点的具体划分。这是与DBSCAN最大的不同。
可达距离图:

在DBCSAN算法中需要输入两个参数:epsilon和minPts ,选择不同的参数会导致最终聚类的结果千差万别,因此DBCSAN对于输入参数过于敏感。OPTICS算法的提出就是为了帮助DBSCAN算法选择合适的参数,降低输入参数的敏感度。

两个重要的概念:
核心距离:是确定一个给定点是核心点的半径最小值。如果给定点不是一个核心点,那么它的核心距离是 无穷大。

可达距离:
定义相对其它数据点q。点p和q之间的可达距离是p点的核心距离与p和q之间的欧氏距离的最大值 max(core_dist(p), eula(p, q))

仔细品味这两张 可达距离 云图

2. MeanShift

均值漂移, 在目标追踪中应用广泛。本身其实是一种基于密度的聚类算法。
计算某一点A与其周围半径R内的向量距离的平均值M,计算出该点下一步漂移(移动)的方向(A=M+A)

MeanShift向量表示区域中k个样本点相对于点x求偏移量再平均,求出来的向量指向概率密度梯度的方向(指向真实质心方向)。

MeanShift的扩展:
不同的簇包含的数据看成是正太分布采样得到的。


标签:DBSCAN,机器,19,核心,距离,MeanShift,minPts,聚类
From: https://www.cnblogs.com/cavalier-chen/p/17925031.html

相关文章

  • 2023-2024-1 20231319《计算机基础与程序设计》第十三周学习总结
    2023-2024-120231300《计算机基础与程序设计》第十三周学习总结作业信息这个作业属于哪个课程2023-2024-1-计算机基础与程序设计这个作业要求在哪里2023-2024-1计算机基础与程序设计第x周作业这个作业的目标《C语言程序设计》第12章教材学习内容总结从基本......
  • 人工智能算法原理与代码实战:从机器学习到人工智能
    1.背景介绍人工智能(ArtificialIntelligence,AI)是计算机科学的一个分支,研究如何让计算机模拟人类的智能。人工智能的目标是让计算机能够理解自然语言、认识环境、学习新知识、解决问题、作出决策等。人工智能的发展涉及到多个领域,包括机器学习、深度学习、计算机视觉、自然语言处......
  • 人工智能算法原理与代码实战:从自然语言处理到机器翻译
    1.背景介绍人工智能(ArtificialIntelligence,AI)是一门研究如何让计算机模拟人类智能的学科。自然语言处理(NaturalLanguageProcessing,NLP)是人工智能的一个分支,旨在让计算机理解、生成和处理人类语言。机器翻译(MachineTranslation,MT)是自然语言处理的一个重要应用,旨在将一种语......
  • 人工智能算法原理与代码实战:强化学习在机器人控制中的应用
    1.背景介绍人工智能(ArtificialIntelligence,AI)是一门研究如何让计算机模拟人类智能的学科。强化学习(ReinforcementLearning,RL)是一种人工智能技术,它允许计算机代理(agents)通过与环境(environment)的互动来学习。机器人控制(RoboticsControl)是一种应用强化学习的领域,它涉及到机器人......
  • 机器码生成器
    首先看下页面 代码如下privatevoidbtn_Create_Click(objectsender,EventArgse){stringuuid=GetUuid();stringjiqima=GenerateMD5(uuid).ToUpper();tb_IdCard.Text=jiqima;}///<summary>......
  • CF contest 1909 Pinely Round 3 (Div. 1 + Div. 2) 题解(Vanilla的掉分赛)
    CFcontest1909PinelyRound3(Div.1+Div.2)Vanilla的掉分赛绪言PinelyRound3(Div.1+Div.2)-Codeforces\[\color{purple}\large\textbf{世界上只有一种真正的英雄主义,}\]\[\color{red}\large\textbf{就是认清了生活的真相后还依然热爱它。}\]\[\color{gray}......
  • Microsoft Azure AI 机器学习笔记-1
    机器学习基础:数据与建模:数据统计和数学建模是处理数据和描述现实情况的关键工具。观测值是记录的数据实例,而特征是描述观测对象的属性。标签则代表监督式学习中的已知输出值。学习类型:监督式学习包括回归(预测数值标签)和分类(预测类别标签),其中分类又分为二元分类和多类......
  • 2023-2024-1 20211319《计算机基础与程序设计》第十三周学习总结
    2023-2024-120211319《计算机基础与程序设计》第十三周学习总结作业信息这个作业属于哪个课程<班级的链接>(如2023-2024-1-计算机基础与程序设计)这个作业要求在哪里https://www.cnblogs.com/rocedu/p/9577842.html#WEEK13这个作业的目标<写上具体方面>作业正......
  • CodeForces 1909E Multiple Lamps
    洛谷传送门CF传送门感觉这个题比较难蚌。发现按\(1\simn\)最后可以把\(1\simn\)中的所有平方数点亮。所以\(n\ge20\)就直接输出\(1\simn\)。考虑\(n\le19\)。猜测合法的方案(即按完后亮灯数\(\le\left\lfloor\frac{n}{5}\right\rfloor\)的方案,不考虑\((......
  • CodeForces 1909D Split Plus K
    洛谷传送门CF传送门设最后每个数都相等时为\(t\)。那么一次操作变成了合并两个数\(x,y\),再增加\(x+y-k\)。于是每个\(a_i\)可以被表示成\(b_it-(b_i-1)k\)的形式,化简得\(a_i-k=b_i(t-k)\)。因为\(t-k\)对于每个\(i\)都相同,又因为我们的目标是......