首页 > 其他分享 > Attributed Graph Clustering |A Deep Attentional Embedding Approach

Attributed Graph Clustering |A Deep Attentional Embedding Approach

时间:2023-04-16 18:22:37浏览次数:49  
标签:Clustering 编码器 嵌入 DAEGC 训练 Graph Deep 聚类 注意力

论文阅读01-Attributed Graph Clustering: A Deep Attentional Embedding Approach

1. 创新点idea

  1. Two-step的图嵌入方法不是目标导向的,聚类效果不好,提出一种基于目标导向的属性图聚类框架。

所谓目标导向,就是说特征提取和聚类任务不是独立的,提取的特征要在一定程度上有利于聚类,那么如何实现?可以通过自训练聚类的方式,将隐藏图嵌入产生的软聚类分配与聚类联合优化

  1. 提出图注意力自动编码器

2. 模型 model

1. two-step

image-20230308094038236

two-step 步骤:深度学习方法来学习紧凑图嵌入 embedding,在此基础上应用的聚类方法

two-step之前缺点:图嵌入的生成和聚类是两个独立的部分,通常会导致性能不佳。

这主要是因为图嵌入不是目标导向的,即专为特定的聚类任务而设计

DAEGC 解决办法让模型图嵌入和聚类之间联合优化

2. 模型架构图

image-20230308094148787

DAEGC通过基于图注意力的自动编码器学习隐藏表示 Z,并使用自训练聚类模块对其进行操作该模块与自动编码器一起优化并在训练期间执行聚类.

DAEGC模型架构为两个部分:

  • 图注意力自动编码器部分
  • 自训练聚类

自然而然的,该任务的目标函数就由两部分组成,重建损失和聚类损失:L=Lr+γLc

3. 图注意力自动编码器

DAEGC这篇论文的编码器在GAT 的基础上修改 作为图编码原GAT论文 仅考虑 1 阶相邻节点(一阶)以进行图注意力。 DAEGC 认为图具有复杂的结构关系,建议在编码器中利用高阶邻居。我们通过考虑图中的 t 阶邻居节点获得邻近矩阵M: t参数可以根据实验结果,自己调节,也即是输入参数

image-20230308094250108

接下来计算顶点之间的图注意力系数: 顶点间的图注意力是不对成的 即 aij 不等于aji

image-20230308100604102

DAEGC 堆叠两层图注意层得到图注意力自动编码器的编码器部分:

image-20230308101653448

image-20230308101954296

​ 解码器采用简单的内积:

image-20230308104330299

​ 损失函数Lr:

image-20230308104411125

4. 自训练聚类模块

​ 我们使用t-分布来衡量嵌入节点Zi簇中心节点Uu 之间的相似性。

image-20230308105314822

其他论文中公式:

image-20230308105502219

qiu表示节点i属于簇u的概率,将其看作是每个节点的软聚类分配标签,如果值越大,那么可信度越高 。通过平方运算将这种可信度放大:

image-20230308105938080

自训练聚类模块的损失函数采用KL 散度:

image-20230308110014750

聚类损失然后迫使当前分布 Q 逼近目标分布 P ,从而将这些“置信分配”设置为软标签来监督 Q 的嵌入学习

​ 因此DEAGC 模型总的损失函数L:

image-20230308111337066

5. DAEGC 算法流程图、

image-20230308123920017

6. DAEGC 模型参数和评价标准

DAEGC 参数设定

我们将聚类系数 γ 设置为 10。我们考虑二阶邻居并设置 M = (B +B2)/2。编码器由一个 256 个神经元隐藏层和一个 16 个神经元嵌入层构成,适用于所有数据集

DAEGC 评价指标:

使用四个指标 [Xia et al., 2014] 来评估聚类结果:准确性 (ACC)、归一化互信息 (NMI)、F 分数和调整兰德指数 (ARI)

更好的聚类结果应该会导致所有指标的值更高。

7.实验结果分析

  1. 实验对比

image-20230310123310585

  1. 同时使用图的结构和内容信息的方法通常比仅使用图的一侧信息的方法表现更好

  2. DAEGC模型为啥好:

    (1)我们采用了图注意力网络,有效地整合了图的内容和结构信息;

    (2) 我们的自训练聚类组件在提高聚类效率方面专业而强大

  1. 嵌入层维度

image-20230310123005772

嵌入层维度分析:
当嵌入维度从 4 个神经元增加到 16 个神经元时,聚类性能稳步上升;但是当我们进一步增加嵌入层的神经元时,性能会有所波动,尽管 ACC 和 NMI 分数总体上都保持良好

  1. 可视化分析

image-20230310123424500

第一个可视化说明仅使用图形注意自动编码器进行嵌入训练,然后是显示后续相等时期的可视化,其中包含自训练组件,直到最后一个是最终的嵌入可视化

额外知识补充

student t分布

对于 i 样本和 j 样本,我们使用 Student 的 t 分布作为核心来度量嵌入点 hi 和聚类中心向量 μj 之间的相似性,如下所示:

image-20230306213807740

qij可以看作是将样本i分配聚类j的概率,即软分配。

注意点: t=1

解释

我们无法在无监督环境中对验证集上的 t 进行交叉验证,并且学习它是多余的(van der Maaten,2009),我们让所有实验的 t= 1

无监督的深度嵌入式聚类分析 - 知乎 (zhihu.com)

参考文献

无监督的深度嵌入式聚类分析 - 知乎 (zhihu.com)

文献+代码—AAAI'20 对话系统新意图发现( Constrained Deep Adaptive Clustering with Cluster Refinement) - 知乎 (zhihu.com)

论文阅读02——《Attributed Graph Clustering: A Deep Attentional Embedding Approach》 (marigold.website)

DAEGC 代码

出现问题解决办法:

在torch_geometric.datasets中使用Planetoid手动导入Core数据集及发生相关错误解决方案-阿里云开发者社区 (aliyun.com)

标签:Clustering,编码器,嵌入,DAEGC,训练,Graph,Deep,聚类,注意力
From: https://www.cnblogs.com/life1314/p/17323766.html

相关文章

  • Structural Deep Clustering Network:SDCN
    论文阅读02-StructuralDeepClusteringNetwork模型创新点我们提出了一种用于深度聚类的新型结构深度聚类网络(SDCN)。所提出的SDCN有效地将自动编码器和GCN的优势与新颖的交付算子和双自监督模块结合在一起。据我们所知,这是第一次明确地将结构信息应用于深度聚类。......
  • FastGCN Fast Learning with Graph Convolutional Networks via Importance Sampling
    目录概符号说明MotivationFastGCN方差分析代码ChenJ.,MaT.andXiaoC.FastGCN:fastlearningwithgraphconvolutionalnetworksviaimportancesampling.ICLR,2018.概一般的GCN每层通常需要经过所有的结点的propagation,但是这是费时的.像普通的深度学习方法一......
  • Deeper Insights into Graph Convolutional Networks for Semi-Supervised Learning
    目录概符号说明Laplaciansmoothing代码LiQ.,HanZ.andWuX.Deeperinsightsintographconvolutionalnetworksforsemi-supervisedlearning.AAAI,2018.概本文分析了GCN的实际上就是一种Smoothing,但是如果层数过多就会导致over-smoothing.符号说明\(\mat......
  • 给deepin-terminal提交的pr
    hello,[email protected]以下是给deepin-teminal提交的pr:终端增加透明与非透明切换快捷键[https://github.com/linuxdeepin/deepin-terminal/pull/268]因需求面问题,未通过终端增加加粗下划线光标设置选项[https://github.com/linuxdeepin/deepin-termina......
  • Stochastic Training of Graph Convolutional Networks with Variance Reduction
    目录概符号说明Motivation本文方法代码ChenJ.,ZhuJ.andSongL.Stochastictrainingofgraphconvolutionalnetworkswithvariancereduction.ICML,2018.概我们都知道,GCN虽然形式简单,但是对于结点个数非常多的情形是不易操作的:多层的卷积之后基本上每个结点......
  • Shortest Cycle in a Graph
    ShortestCycleinaGraphThereisabi-directional graphwith n vertices,whereeachvertexislabeledfrom 0 to n-1.Theedgesinthegrapharerepresentedbyagiven2Dintegerarray edges,where edges[i]=[ui,vi] denotesanedgebetweenverte......
  • Unigraphics NX(UG NX)1957 安装包下载及(UG NX)1957 安装教程
    UG(UnigraphicsNX)是SiemensPLMSoftware公司出品的一个产品工程解决方案,它为用户的产品设计及加工过程提供了数字化造型和验证手段。UnigraphicsNX针对用户的虚拟产品设计和工艺设计的需求,以及满足各种工业化需求,提供了经过实践验证的解决方案。UG同时也是用户指南(userguide)和普......
  • Unigraphics NX(UG NX)1926 安装包下载及(UG NX)1926 安装教程
    UG(UnigraphicsNX)是SiemensPLMSoftware公司出品的一个产品工程解决方案,它为用户的产品设计及加工过程提供了数字化造型和验证手段。UnigraphicsNX针对用户的虚拟产品设计和工艺设计的需求,以及满足各种工业化需求,提供了经过实践验证的解决方案。UG同时也是用户指南(userguide)和普......
  • Unigraphics NX(UG NX)1899 安装包下载及(UG NX)1899 安装教程
    UG(UnigraphicsNX)是SiemensPLMSoftware公司出品的一个产品工程解决方案,它为用户的产品设计及加工过程提供了数字化造型和验证手段。UnigraphicsNX针对用户的虚拟产品设计和工艺设计的需求,以及满足各种工业化需求,提供了经过实践验证的解决方案。UG同时也是用户指南(userguide)和普......
  • 【Azure Developer】使用 Microsoft Graph API 获取 AAD User 操作示例
    问题描述查看官方文档“ Getauser ”,产生了一个操作示例的想法,在中国区Azure环境中,演示如何获取AADUser信息。 问题解答使用MicrosoftGraphAPI,演示如何获取AADUser信息,因参考文档是针对GlobalAzure,所以文档种的URL为://GlobalAzureMicrosoftGraphAPIHostG......