首页 > 其他分享 >【机器学习】---密度聚类从初识到应用

【机器学习】---密度聚类从初识到应用

时间:2022-12-30 17:31:55浏览次数:66  
标签:对象 点以 --- 可达 初识 MinPts 密度 聚类 半径



=========================================================

声明:由于不同平台阅读格式不一致(尤其源码部分),所以获取更多阅读体验!!


个人网站地址:​http://www.lhworldblog.com/

==========================================================



一.前述

密度聚类是一种能降噪的算法。

二.相关概念

先看些抽象的概念(官方定义)

1.

【机器学习】---密度聚类从初识到应用_个人网站

:对象O的是与O为中心,【机器学习】---密度聚类从初识到应用_持续更新_02为半径的空间,参数

【机器学习】---密度聚类从初识到应用_持续更新_03

,是用户指定每个对象的领域半径值。2.MinPts(领域密度阀值):对象的

【机器学习】---密度聚类从初识到应用_个人网站_04

的对象数量。3.核心对象:如果对象O

【机器学习】---密度聚类从初识到应用_持续更新_05

的对象数量至少包含MinPts个对象,则该对象是核心对象。4.直接密度可达:如果对象p在核心对象q的

【机器学习】---密度聚类从初识到应用_聚类_06

内,则p是从q直接密度可达的。5.密度可达:在DBSCAN中,p是从q(核心对象)密度可达的,如果存在对象链,使得

【机器学习】---密度聚类从初识到应用_个人网站_07

,【机器学习】---密度聚类从初识到应用_持续更新_08【机器学习】---密度聚类从初识到应用_持续更新_09从关于【机器学习】---密度聚类从初识到应用_个人网站_10和MinPts直接密度可达的,即【机器学习】---密度聚类从初识到应用_持续更新_11【机器学习】---密度聚类从初识到应用_持续更新_12

【机器学习】---密度聚类从初识到应用_个人网站_13

内,则【机器学习】---密度聚类从初识到应用_聚类_14【机器学习】---密度聚类从初识到应用_持续更新_15密度可达。6.密度相连:如果存在对象

【机器学习】---密度聚类从初识到应用_持续更新_16

,使得对象

【机器学习】---密度聚类从初识到应用_聚类_17

都是从q关于和MinPts密度可达的,则称

【机器学习】---密度聚类从初识到应用_个人网站_18

是关于【机器学习】---密度聚类从初识到应用_聚类_19和MinPts密度相连的。

PS:是不是很抽象 ,所以官方定义永远是官方定义确实理解不了。然后再看些非官方定义,其实就大概明白了。

先上图:

【机器学习】---密度聚类从初识到应用_聚类_20

解释下:这里有几个关键的概念。

领域其实就是某一个半径内,假设半径为5,我们先看P点以半径为5画的圆中包含3个点,而q点以半径为5画7个点  7>5,所以q就叫做核心对象。q不是核心对象。理解就是这么简单,再看看什么叫密度可达,见下图:

【机器学习】---密度聚类从初识到应用_聚类_21

0点以半径为5画圆与p点以半径为5画圆有交集,即O点以半径为5的领域内有以P为中心店半径为5的领域内的点,则O密度可达P,O也密度可达q(在边界交点也算)。

从o点能密度可达p,也能密度可达q,则p,q叫密度相连。

再比如:

【机器学习】---密度聚类从初识到应用_聚类_22

q密度可达p1,p1密度可达p,则q密度可达p(间接的也是密度可达)!!!!

这里需要两个参数注意下:r半径,m阈值,即以r为半径内所包含的点,只有大于m阈值的点才能叫核心对象。

簇就是密度相连的最大的集合。即一个簇就是最大的密度相连的集合。

如果一个点不是核心对象,也就意味着不能密度可达,所以就是噪声点。(通俗理解就是一个点都不能画圆,怎么会有密度可达呢?)

比如下图:

【机器学习】---密度聚类从初识到应用_持续更新_23

就是噪声点。

PS:总结下规律:

给定的m不够簇就会变多,比如下图:m分别是5,3,2

【机器学习】---密度聚类从初识到应用_聚类_24

 

解释:当是5的时候,圈红的边缘点不是核心对象,所以不能画圆,所以不会密度可达。当是2的时候,半径内的值大于阈值所以是核心对象,那么这堆数据有可能密度相连,形成一个簇。这也就是簇变多的原因。

r半径太大就会聚类到一起:如下图

【机器学习】---密度聚类从初识到应用_持续更新_25

 

 所以Finally总结:要大一起大,要小一起小,参数这是最合适的。比如2,6图是合适的,4个簇。

 未完待续,持续更新中。。。。。。。。。。。。

 

     

标签:对象,点以,---,可达,初识,MinPts,密度,聚类,半径
From: https://blog.51cto.com/u_11936913/5980871

相关文章

  • Python__18--函数的定义与创建
    1函数的定义执行特定任务以完成特定功能的一段代码特点:复用代码隐藏细节提高可维护性提高可读性便于调试2函数的创建def函数名([输入参数]):函数体return......
  • Kubernetes-Pod常用字段
    必选字段字段名说明apiVersionapi版本号kind资源类型。如Pod、Deploymentmetadata对象的元数据metadata.name元数据名称(唯一的)。如pod名称......
  • shiro-550反序列化分析
    搭个环境root/secret原理shiro反序列化产生原因是因为shiro接受了Cookie里面rememberMe的值,然后去进行Base64解密后,再使用aes密钥解密后的数据,进行反序列......
  • python-selenium4使用-1、安装与浏览器配置
    环境Python3.9.13浏览器chromeselenium4.4.3问题在一个自动化脚本的运行下,环境是非常重要的,因此我们在不同电脑运行脚本时,就会遇到驱动不一致导致脚本无......
  • SpringBoot - @RequestMapping 注解
    @Target({ElementType.TYPE,ElementType.METHOD})//只能在方法上使用@Retention(RetentionPolicy.RUNTIME)@Documented@Mappingpublic@interfaceRequestMapping{......
  • Redux+React-Redux 最新入门实战指南?
    大家好,我是CoderBin前言本文将给大家带来redux和react-redux的快速使用,以理论+代码+案例的形式教大家如何在react中去使用状态管理,以实现数据的高效通信......
  • 操作系统-cache高速缓存
    问题在cache中访问的内存地址为何会带有cache相关的信息,动机是什么?前言平时只知道cpu到内存之间还有一层cache,CPU要去主存找一个数据,第一反应肯定是到......
  • USB总线-Linux内核USB3.0设备控制器之UDC驱动分析(六)
    1.概述UDC驱动的接口都定义在drivers/usb/gadget/udc/core.c文件中。USBFunction驱动通过调用这些接口匹配及访问USB设备控制器,而底层USB控制器驱动要实现这些接口定义的......
  • Linux搭建Hadoop-2.7.2分布式集群
    Hadoop简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Had......
  • Linux搭建ELK-7.5.1分布式集群并且配置X-Pack
    ELK介绍需求背景业务发展越来越庞大,服务器越来越多各种访问日志、应用日志、错误日志量越来越多,导致运维人员无法很好的去管理日志开发人员排查问题,需要到服务器上查日志,不......