首页 > 其他分享 >机器学习.周志华《9 聚类》

机器学习.周志华《9 聚类》

时间:2023-06-25 12:33:24浏览次数:35  
标签:周志华 机器 样本 距离 原型 聚类 属性 度量


目录:

  • 聚类任务
  • 性能度量
  • 距离计算
  • 原型聚类
  • 密度聚类
  • 层次聚类方法

聚类任务

聚类:经典的无监督学习方法,无监督学习的目标是通过对无标记训练样本的学习,发掘和揭示数据集本身潜在的结构与规律,即不依赖于训练数据集的类标记信息。聚类则是试图将数据集的样本划分为若干个互不相交的类簇,从而每个簇对应一个潜在的类别。

聚类过程仅能自动形成簇结构,簇说对应的概念语义需要使用者来把我和命名。

聚类既可以作为一个单独过程,用于寻找数据内在的分布结构;也可以作为分类等任务的前驱过程。

聚类直观上来说是将相似的样本聚在一起,从而形成一个类簇(cluster)。那首先的问题是如何来度量相似性(similarity measure)呢?这便是距离度量,在生活中我们说差别小则相似,对应到多维样本,每个样本可以对应于高维空间中的一个数据点,若它们的距离相近,我们便可以称它们相似。那接着如何来评价聚类结果的好坏呢?这便是性能度量,性能度量为评价聚类结果的好坏提供了一系列有效性指标。



性能度量

聚类的性能度量又叫“有效性指标”;

  • 簇内相似度:越高越好;
  • 簇间相似度:越低越好;

性能度量分类:

  • 外部指标:将聚类结果与某个“参考模型”进行比较;如:Jaccard系数、FM指数、Rand指数等

机器学习.周志华《9  聚类》_聚类

机器学习.周志华《9  聚类》_聚类_02

  • 内部指标:直接考察聚类结果而不利于任何参考模型;如:DB指数、Dunn指数;

机器学习.周志华《9  聚类》_距离度量_03

机器学习.周志华《9  聚类》_聚类_04

距离计算

距离度量dist(x,y)需要满足的一些基本性质:

机器学习.周志华《9  聚类》_数据集_05

常用距离度量:

机器学习.周志华《9  聚类》_数据集_06

常用属性划分:

  • 连续属性(数值属性):在定义域上有无穷多个可能的取值;
  • 离散属性(列名属性):在定义域上是有限个取值;

距离度量中的属性需要考虑“序”:

  • 无序属性:VDM

机器学习.周志华《9  聚类》_数据集_07

  • 混合属性:闵可夫斯基距离和VDM结合

机器学习.周志华《9  聚类》_聚类_08

  • 不同属性重要性不同:加权距离

Eg:加权闵可夫斯基距离:

机器学习.周志华《9  聚类》_距离度量_09

非度量距离:不一定满足距离度量的所有基本性质;

距离计算式:可使用“距离度量学习”来实现;


原型聚类

原型聚类(基于原型的聚类):算法先对原型进行初始化,然后对原型进行迭代更新求值。

k均值算法:贪心算法

机器学习.周志华《9  聚类》_聚类_10

机器学习.周志华《9  聚类》_聚类_11

学习向量量化:数据样本带有类别标记;

高斯混合聚类:采用概率模型来表达聚类原型;

机器学习.周志华《9  聚类》_数据集_12

机器学习.周志华《9  聚类》_聚类_13

机器学习.周志华《9  聚类》_距离度量_14

密度聚类

密度聚类(基于密度的聚类):从样本密度的角度来考察样本之间的可连接性,并基于可连接性不断扩张聚类簇来获得最终的聚类结果。

DBSCAN密度聚类算法:

机器学习.周志华《9  聚类》_距离度量_15

DBSCAN中的“簇”:由密度可达关系到处的最大的密度相连样本集合。即就是:

机器学习.周志华《9  聚类》_距离度量_16

DBSCAN算法:

机器学习.周志华《9  聚类》_数据集_17

层次聚类方法

层次聚类:试图在不同层次上对数据集进行划分,从而形成树形的聚类结构。

数据集的划分:“自底向上”的聚合策略、“自顶向下”的分拆策略;

AGNES:自底向上聚合策略:先将每个样本看做一个初始聚类簇,然后再每一步中找出距离最近的两个聚类进行合并,知道达到预设的聚类个数。

距离计算:

机器学习.周志华《9  聚类》_距离度量_18


AGNES 算法:


机器学习.周志华《9  聚类》_数据集_19

------*-*---------------------------------------------------------------------------------------------------------*-*----

更多详细内容请关注公众号:目标检测和深度学习

机器学习.周志华《9  聚类》_聚类_20

-------…^-^……----------------------------------------------------------------------------------------------------------…^-^……--




标签:周志华,机器,样本,距离,原型,聚类,属性,度量
From: https://blog.51cto.com/u_12667998/6544821

相关文章

  • 机器学习.周志华《4 决策树》
    决策树决策树学习是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一棵决策树。4.1基本流程决策树的生成是一个递归过程:以下3种情况会导致递归返回1)当前节点包含的样本全属于同一类别;2)当前属性集为空或所有样本在所有的属性上取值心痛,无法划分;3)当前节点包含......
  • 机器学习十大算法---1.线性回归
    1.线性回归的模型函数和损失函数线性回归遇到的问题一般是这样的。我们有m个样本,每个样本对应于n维特征和一个结果输出,如下:我们的问题是,对于一个新的,他所对应的是多少呢?如果这个问题里面的y是连续的,则是一个回归问题,否则是一个分类问题。对于n维特征的样......
  • 机器学习评价指标总结(二分类篇)
    目录疾病预测混淆矩阵基础指标准确率(Accuracy)精确率(Precision)召回率(Recall)精确率和召回率的关系综合指标F1分数(F1Score)P-R曲线平均精确率均值(AveragePrecision)ROC曲线AUC(ROC曲线下面积)对比P-R/AP和ROC/AUC疾病预测我们以疾病预测为例子来介绍分类的指标。疾病预测是一个......
  • 机器学习复习4
    机器学习复习1-在下面的训练集中,\(x_4^{(3)}\)是什么?输入数字(这是一个整数,如123,没有小数点)答案:302-以下哪些是矢量化的潜在好处?请选择最佳选项。A.它可以使你的代码运行得更快B.它可以使你的代码更短C.它可以使你的代码更容易在并行计算硬件上运行D.以上都是答......
  • 机器学习复习3
    机器学习复习1-哪一个是分类任务的例子?A.根据肿瘤的大小,判断是否是恶性肿瘤B.根据患者年龄和血压,判断应该给患者开多少血压药C.根据患者的血压,判断应该给患者开多少血压药答案:A2-回忆一下Sigmoid函数:\[g(z)=\frac{1}{1+e^{-z}}\]如果z是一个大的正值,那么:A.\(g(......
  • Python与TensorFlow:如何高效地构建和训练机器学习模型
    目录标题:《Python与TensorFlow:如何高效地构建和训练机器学习模型》一、引言随着人工智能的快速发展,机器学习作为其中的一个重要分支,受到了越来越多的关注和应用。而Python作为一门广泛应用于机器学习领域的编程语言,其与TensorFlow的结合也变得越来越重要。本文将介绍Python与......
  • 一大波特斯拉人形机器人上线,马斯克震撼官宣2款新车!
    【导读】这次特斯拉股东日,虽没有新车,但马斯克确定Cybertruck今年一定会来。特斯拉股东日,依旧没有新车。万众瞩目的马斯克登台继续画饼,「我不官宣新车,不过新车年销量会超过500万」。马斯克向所有人展示了特斯拉正在研发的2款新车,新车的样子在屏幕中一闪而过。具体配置,只字未提。从比......
  • 吴恩达-斯坦福CS229机器学习课程-2017(秋)最新课程分享
    吴恩达主讲的机器学习-2017年秋季课程已经开课啦,今天跟大家分享这套课程。课程介绍本课程主要介绍机器学习和统计模式识别相关的知识。内容主要包括:监督学习(生成/判别学习,参数/非参数学习,神经网络,支持向量机);无监督学习(聚类,维数规约,核方法);学习理论(偏差/方差权衡;VC理论;大边缘概率......
  • 840个最优的机器学习python开源项目整理分享
    本资源包含了840个很棒的机器学习开源项目,总共270万颗星分为32个类别。所有项目均按项目质量得分排名,该得分是根据从GitHub和不同程序包管理器自动收集的各种指标计算得出的。目录资源列表......
  • 机器学习从入门到进阶所需学习资料-包括书、视频、源码
    本文整理了一些入门到进阶机器学习所需要的一些免费的精品视频课程,一些优质的书籍和经典的代码实战项目。视频1.1吴恩达老师机器学习课程:•Coursera•网易云课堂•英文笔记•中文笔记、字幕1.2吴恩达深度学习课程•Coursera•网易云课堂•笔记1.3斯坦福CS231n:Co......