首页 > 其他分享 >AutoCF论文阅读笔记

AutoCF论文阅读笔记

时间:2024-04-01 16:34:08浏览次数:21  
标签:prime 增强 mathbf 论文 AutoCF 笔记 mathcal 节点

AutoCF论文阅读笔记

Abstract

开始介绍存在的问题

​ 大多数对比方法的成功在很大程度上依赖于手动生成有效的基于启发式的数据增强。这并不适用于不同的数据集和下游推荐任务,这对数据增强具有自适应性,并且对噪声扰动具有鲁棒性很困难。

介绍解决方案

​ 为了弥补这一关键的差距,这项工作提出了一个统一的自动协同过滤(AutoCF)来自动执行数据增强的推荐。特别地,我们关注生成的自监督学习框架与一个可学习的增强范式,这有利于重要的自监督信号的自动蒸馏。为了提高表示识别能力,我们设计了掩码图自动编码器,通过重构掩码子图结构来聚合增强过程中的全局信息。

Introduction

再次强调问题:

​ 目前的对比学习推荐者严重依赖于手动生成的对比视图来进行基于启发式的数据增强。只有当对比视图被适当地用于不同的数据集和任务时,才能保证这些方法的有效性。在不同的推荐场景中,准确地生成对比表示视图是非常具有挑战性的,手动执行数据增强可能不可避免地涉及到SSL的噪声和无关信息。

​ 从图结构级和局部全局增强的角度来看,通过随机节点/边缘退出操作的自分配可能导致i)丢失重要的结构信息(例如,不活跃用户的有限交互);以及ii)保持噪声数据(例如,误点击行为或流行偏差)来对比样本。

​ 目前的对比推荐系统由于其手工制作的非自适应对比视图生成策略,仍然容易受到增强监督信号质量的影响。考虑到现有工作的局限性,我们认为设计一个基于ssl的单一推荐模型是必要的,它不仅可以提取自监督信号进行有效的数据增强,而且可以减轻人类人工生成自我监督信号或调整增强策略的能力。为此,可能会提出一个有趣的问题:是否有有原则的方法自动提取重要的自我监督信号进行自适应增强?

​ 我们提出了一个通过掩蔽图自动编码器架构在基于图的CF范式中进行自监督增强的自动化框架,以探索模型设计的以下问题:

  • 如何自动提取对推荐目标更有利的自我监督信号?
  • 如何通过良好地保留信息性的协作关系来实现可学习图的增强?
  • 如何设计用于自适应图重构的全局信息聚合中的图自编码器框架。

​ 为了解决这些挑战,我们提出了一种新的自动协同过滤(AutoCF),它能够提取图结构-自适应的自监督信号,以推进基于图的CF框架。特别地,我们设计了一个可学习的掩蔽函数来自动识别重要的中心节点,以进行基于重建的数据增强。在掩模学习阶段,将考虑节点特定子图的语义相关性,以准确地保留基于图的协作关系。此外,我们提出了一种新的掩码图自动编码器,其中的关键成分是一个图神经编码器,它捕获全局协作关系来重建掩码用户项子图结构。

本文的贡献为:

  • 研究了现有的基于gnn的对比推荐方法的非自适应自监督增强和对噪声扰动的弱鲁棒性的缺点。
  • 提出了一种自动自监督学习模型AutoCF,其中设计了一种学习掩模范式,通过结构自适应自监督进行数据增强。此外,自动掩码生成器与图形掩码自动编码器集成,以增强使用SSL的用户表示。

Method

​ 本节阐述了自适应掩蔽图自动编码器-AutoCF的技术细节,以通过基于图神经网络的自动监督信号的自动蒸馏增强用户表示。我们在下图中展示了AutoCF的架构

pFTFjW6.png

自动图增强

学习掩码范式

​ 为了在图结构的交互数据G上自动提取重构的自监督信号,我们提出自适应地重新提取掩蔽的用户项交互边,以有利于高阶图对话关系的建模。我们的可学习掩模方案的核心思想是首先识别G中的中心节点,然后根据它们的子图结构信息来掩码信息交互边。一般来说,可学习的基于图形的交互掩模函数\(\phi\)在AutoCF中可以形式化为:

​ \(\varphi(\mathcal{G},\mathcal{V};k)=\left\{\mathcal{U},\mathcal{I},\mathcal{V},\mathcal{E}\setminus\{(v_1,v_2)|v_1,v_2\in\mathcal{N}_v^k,v\in\mathcal{V}\}\right\}\)

​ 其中,\(\mathcal{V}\)是中心节点的集合,\(N_v^k\)代表节点v的k跳邻居,\((v_1,v_2)\)表示在给定中心节点的采样子图结构中通过设置减法运算被屏蔽的现有边

基于Infomax的语义相关性

​ 我们利用互信息,基于用户和项目之间的高阶图协作关系,来度量节点级嵌入和子图级表示之间的语义相关性。在形式上,子图与节点v的语义相关性得分\(s_v\)的计算如下:

​ \(s_v=\psi(v;k)=\mathrm{sigm}(\mathbf{h}_v^\top\sum_{v^{\prime}\in\mathcal{N}_v^k}\mathbf{h}_{v^{\prime}}/(|\mathcal{N}_v^k|\cdot\|\mathbf{h}_v\|\cdot\|\mathbf{h}_{v^{\prime}}\|))\)

​ 子图级别的表示是通过聚合所有目标节点v的k跳节点(\(v'\in N_v^k\))的嵌入。使用Readout函数,如均值池或总和。语义相关性得分越大,不仅表明目标用户与其图相关节点(用户和项目)之间的结构一致性越高,而且表明采样子图中拓扑信息噪声的百分比也越低。例如,一个有许多项目错误点击的离群用户将导致他们在交互数据的协作关系中与他人的结构一致性较低。

学习Gumbel分布来进行mask

​ 给定所设计的可学习的掩蔽函数\(\varphi(\mathcal{G},\mathcal{V};k)\)。我们的AutoCF能够自动生成用户-项目交互的自监督重构信号,这有利于自适应数据增强。提高我们学习掩码范式的重要性。我们将Gumbel分布的噪声注入到节点特定掩模概率\(\psi(v;k)\)的推导中

\(\psi^{\prime}(v;k)=\log\psi(v;k)-\log(-\log(\mu));\quad\mu\sim\mathrm{Uniform}(0,1)\)

​ 基于所有节点的估计掩码概率,我们生成了一组S个中心节点。通过学习的掩码概率选择顶部的用户和项目节点。为了用可学习的数据增强来增强我们的AutoCF,我们通过子图互信息最大化进一步注入 SSL 信号,使用以下基于 infomax 的最优化目标

\(\mathcal{L}_{\text{InfoM}} = - \sum _ { v \in \mathcal{U}\cup I}\psi(v;k).\)

掩码图自动编码器

​ AutoCF 的目标是通过对图 G 中被遮蔽的用户与项目交互边进行重构学习任务来增强基于图的协同过滤。在应用我们的遮蔽学习范式后,我们将带有遮蔽边的增强图输入我们开发的图自动编码器框架。特别是,AutoCF 提议利用广泛应用于以往推荐系统的图卷积网络 作为编码器,将图结构信息纳入用户和项目节点嵌入中。为了缓解 GNN 中的过度平滑问题,并为 AutoCF 增添全局信息聚合功能,我们采用图自注意作为解码器,以连接编码器和辅助自监督重构任务。

基于图卷积的结构编码器

​ AutoCF的Encoder使用的是LightGCN的Encoder

图自注意力解码器

​ 虽然图卷积编码器允许我们捕获用户-项目交互图结构,但随着图传播层的增加,过度平滑问题将成为一个自然的问题。为了缓解这一局限性,我们设计了图自注意模块作为AutoCF中的解码器,用于自监督结构重构,并将全局自注意用于远程信息聚合,而不是局部卷积融合。

​ 因为基于注意力的信息聚合的计算时间复杂度比较高。所以我们提出在节点的子集上进行配对关系学习,重点放在屏蔽子图结构上。这样,我们不仅能提高图自关注解码器的效率,还能进一步捕捉具有高子图语义相关性的中心节点 V 的高阶结构信息。具体来说,我们定义一个顶点集\(\bar{V}\),它包括所有被遮挡子图中的顶点,给定\(\bar{V}\)后,将从剩余节点\(((\mathcal{U}\cup I)\backslash\bar{\mathcal{V}})\)中添加一个节点子集\(\tilde{V}\)。然后从联合的节点集中选出节点对\(\bar{\mathcal{E}}\),并用下面的公式与G'中的边连接起来。

\[\begin{aligned}\tilde{\mathcal{G}}&=\{\mathcal{U},\mathcal{V},\tilde{\mathcal{E}}=\bar{\mathcal{E}}\cup\mathcal{E}^{\prime}\};\quad\bar{\mathcal{E}}=\{(v_1,v_2)|v_1,v_2\in\bar{\mathcal{V}}\cup\tilde{\mathcal{V}}\}\\\mathrm{s.t.~}|\bar{\mathcal{E}}|&=|\mathcal{E}^{\prime}|,|\bar{\mathcal{V}}\cup\tilde{\mathcal{V}}|=\rho\cdot(|\mathcal{U}|+|\mathcal{I}|)\end{aligned} \]

​ 其中\(\mathcal{E}'\)是增强图的边,\(\rho\)是一个控制节点集比率的超参数。给定了全局自注意聚合节点对后,基于图注意的消息传递如下:

\[\begin{gathered} \mathbf{h}_{v}^{l+1} =\sum_{v^{\prime}}\prod_{h=1}^{H}m_{v,v^{\prime}}\beta_{v,v^{\prime}}^{h}\mathbf{W}_{\mathrm{V}}^{h}\mathbf{h}_{v^{\prime}}^{l};\quad m_{v,v^{\prime}}=\begin{cases}1&\mathrm{if~}(v,v^{\prime})\in\tilde{\mathcal{E}}\\0&\mathrm{otherwise}&\end{cases} \\ \beta_{\boldsymbol{\upsilon},\boldsymbol{\upsilon}^{\prime}}^{\boldsymbol{h}} =\frac{\exp\bar{\beta}_{v,v^{\prime}}^h}{\sum_{v^{\prime}}\exp\bar{\beta}_{v,v^{\prime}}^h};\quad\bar{\beta}_{v,v^{\prime}}^h=\frac{(\mathbf{W}_{\mathbb{Q}}^h\cdot\mathbf{h}_{v}^l)^\top\cdot(\mathbf{W}_{\mathbb{K}}^h\cdot\mathbf{h}_{v^{\prime}}^l)}{\sqrt{d/H}} \end{gathered} \]

​ 其中H表示注意力头的数量。

​ 与传统的图自动编码器不同,我们的AutoCF的目标是通过学习发现掩蔽的用户项边缘来恢复掩蔽的交互图结构。使用编码的图层指定的用户/项目表示\(h_u^l\)和\(h_i^l\),整体嵌入层是通过层级聚合生成的。在形式上,在掩蔽图结构上的重建阶段是:

\(\mathcal{L}_{\mathrm{recon}}=-\sum_{(v,v^{\prime})\in\mathcal{E}\backslash\mathcal{E}^{\prime}}\hat{\mathbf{h}}_v^{\top}\cdot\hat{\mathbf{h}}_{v^{\prime}};\quad\hat{\mathbf{h}}_v=\sum_{l=0}^{L}\mathbf{h}_v^l\)

模型训练

​ 在模型训练阶段,我们进一步引入了一种对比训练策略来增强均匀分布的用户/项目嵌入的表示处理能力,从而更好地保留用户在潜在空间中的独特偏好。受中基于infoNCE的增强技术的启发,在AutoCF的学习过程中,我们建议对用户-项目、用户-用户、项目项对进行正则化,生成更统一的用户和项目嵌入,以提高嵌入处理能力,进一步缓解过度平滑效果。具有增强的自监督学习目标的损失函数Lssl为:

\(\begin{gathered} L_{ssl} =\sum_{u\in\mathcal{U}}\log\sum_{i\in I}\exp\hat{\mathbf{h}}_u^\top\hat{\mathbf{h}}_i+\sum_{u\in\mathcal{U}}\log\sum_{u^\prime\in\mathcal{U}}\exp\hat{\mathbf{h}}_u^\top\hat{\mathbf{h}}_{u^\prime} \\ +\sum_{i\in I}\log\sum_{i^{\prime}\in I}\exp\hat{\mathbf{h}}_i^{\top}\hat{\mathbf{h}}_{i^{\prime}}+\mathcal{L}_\text{InfoM}+\mathcal{L}_\text{recon} \end{gathered}\)

​ 最终的损失函数为:

\[\mathcal{L}=-\sum_{(u,i)\in\mathcal{E}}\hat{\mathbf{h}}_u^\top\cdot\hat{\mathbf{h}}_i+\lambda_1\cdot\mathcal{L}_{\mathrm{ssl}}+\lambda_2\cdot\|\boldsymbol{\Theta}\|_\Gamma^2 \]

​ 简单总结一下,整体的流程框架比较像传统的MaskGAE模型,在Mask部分做了创新,并且在重建损失的时候做了一定的创新,以恢复mask的用户-项目边为学习目标。还注意的一点,这里是mask了语义相关性得分大的节点,目的是:通过掩蔽具有较大基于信息的相关性的子图,AutoCF降低了在自增强重建任务中引入噪声梯度的可能性。

​ AutoCF算法的完整流程如下:

pF7rrHf.png

标签:prime,增强,mathbf,论文,AutoCF,笔记,mathcal,节点
From: https://www.cnblogs.com/anewpro-techshare/p/18108774

相关文章

  • 基于ssm人力资源管理系统论文
    摘要随着企业员工人数的不断增多,企业在人力资源管理方面负担越来越重,因此,为提高企业人力资源管理效率,特开发了本人力资源管理系统。本文重点阐述了人力资源管理系统的开发过程,以实际运用为开发背景,基于SSM架构,运用了JSP技术和MYSQL作为系统数据库进行开发,充分保证系统的......
  • 基于ssm网上医院预约挂号系统+jsp论文
    摘要如今的信息时代,对信息的共享性,信息的流通性有着较高要求,因此传统管理方式就不适合。为了让医院预约挂号信息的管理模式进行升级,也为了更好的维护医院预约挂号信息,网上医院预约挂号系统的开发运用就显得很有必要。并且通过开发网上医院预约挂号系统,不仅可以让所学的SSM......
  • 基于SSM框架云趣科技客户管理系统论文
    摘要现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本客户管理系统就是在这样的大环境下诞生,其可以帮助管理者在短时间内处理完毕庞大的数据信息,使用这种软件工具可以帮助管理人员提高事务处理效率,......
  • 【包远程安装运行】:SpringBoot+Mysql企业人事考勤考核管理系统源码+运行视频+包运行+
    今天发布的是由【猿来入此】的优秀学员独立做的一个基于springboot脚手架的在线考核考勤管理系统,该系统除脚手架功能外具体的功能如下:管理员实现的功能有数据维护,考核日期管理,考核管理,测评表管理,统计;干部实现的功能有干部管理,考核日期管理,部门考核,干部个人考核。如果感兴......
  • Vue学习笔记69--activated + deactivated
    activated+deactivated注:生命周期学习可参考学习笔记33两个新的生命周期钩子作用:路由组件所独有的两个构造,用于捕获路由组件的激活状态具体名称:activated--路由组件被激活时触发+deactivated--路由组件失活时触发 示例如下所示:1<template>2<div>3<......
  • YOLOv1论文初步学习(理论知识)
    (如有侵权,联系作者马上删除)一.前情提要1.本文理论为主没有代码详解2.本文理论知识较为散碎3.如有需要,以下是代码精度,更为完备YOLO深度解析(8小时原汁原味解读YOLO论文)_哔哩哔哩_bilibili二.知识点......
  • 基于springboot实现大学生入学审核系统项目【项目源码+论文说明】计算机毕业设计
    基于springboot实现大学生入学审核系统演示摘要随着信息技术在管理上越来越深入而广泛的应用,管理信息系统的实施在技术上已逐步成熟。本文介绍了大学生入学审核系统的开发全过程。通过分析大学生入学审核系统管理的不足,创建了一个计算机管理大学生入学审核系统的方案。文......
  • AJAX学习笔记
    HTTP协议请求与响应文本结构请求报文行: POSTurlHTTP/1.1 //分别是请求类型、url、HTTP协议版本头: Host:atguigu.com //记住头的格式,名称+“:”+空格+内容 Cook:name=guigu Content-type:application/x-www-form-urlencoded空行体: username=admin&password=admin......
  • 基于springboot实现学生读书笔记共享平台系统项目【项目源码+论文说明】计算机毕业设
    基于springboot实现学生读书笔记共享平台系统演示摘要本论文主要论述了如何使用JAVA语言开发一个读书笔记共享平台,本系统将严格按照软件开发流程进行各个阶段的工作,采用B/S架构,面向对象编程思想进行项目开发。在引言中,作者将论述读书笔记共享平台的当前背景以及系统开发......
  • Python学习笔记
    Python一、导学Pthon语言基础入门 Pthon语言高阶加强大数据分析PySpark二、初识Python你好Python程序print("HelloWorld!!")>>HelloWorld!!!输入的双引号和括号为英文字符三、Python基础语法(一)字面量     1.定义:在代码中,被写下来的固定的值,称之为字......