TransGNN: Harnessing the Collaborative Power of Transformers and Graph Neural Networks for Recommender Systems论文阅读笔记
Abstract
存在的问题:
目前基于 GNN 的方法仍面临着感受野有限和存在 "兴趣无关 "连接噪声的挑战。相比之下,基于Transformer的方法在自适应和全局性聚合信息方面表现出色。然而,它们在大规模交互图中的应用却受到了固有的复杂性和捕捉错综复杂的纠缠结构信息的挑战的阻碍。
解决方案:
在本文中,我们提出了一种新的TransGNN模型,它交替地集成了Transformer层和GNN层,以相互增强它们的能力。具体来说,TransGNN 利用 Transformer 层来拓宽感受野,并将信息聚合与边缘分离,从而聚合来自更多相关节点的信息,从而增强 GNN 的信息传递能力。此外,为了有效捕捉图结构信息,还精心设计了位置编码,并将其集成到 GNN 层中,将此类结构知识编码为节点属性,从而提高 Transformer 在图上的性能。此外,我们还提出了针对变换器的最相关节点采样以及两种高效的采样更新策略,以降低复杂性,从而缓解了效率方面的考虑。此外,理论分析表明,与 GNN 相比,TransGNN 的表达能力更强,而线性复杂度仅略有增加。
Introduction
尽管现有的基于图的 CF 模型非常有效,但仍有几个基本挑战没有得到充分解决。首先,信息传递机制依赖于边缘来融合图结构和节点属性,这会导致强烈的偏差和潜在的噪音。例如,最近关于眼动跟踪的研究表明,用户不太可能浏览推荐列表中排名靠后的项目,而倾向于与列表顶部的前几个项目进行交互,而不管项目的实际相关性如何。因此,交互图内的拓扑连接会受到上述位置偏差的阻碍,导致信息传递的说服力降低。
此外,由于对流行项目的过度推荐,用户可能会与他们不感兴趣的产品进行交互,从而导致在用户-项目交互图中形成“与兴趣无关的连接”。因此,从用户对推荐列表的反馈中生成的图形可能不能忠实地反映用户的偏好。更糟糕的是,嵌入沿着边缘的传播可能会加剧噪声效应,潜在地扭曲了基于gnn的模型中潜在用户兴趣的编码。
其次,gnn的接受域也受到过平滑的挑战的限制。已经证明,随着gnn体系结构的深入并达到一定程度,模型不会对训练数据产生响应,这种深度模型获得的节点表现往往过于平滑,也变得难以区分的。因此,GNN模型的最优层数通常被限制在不超过3个,其中模型最多只能捕获3个跳的关系。 然而,在实际应用中,项目序列的长度往往超过 3,这表明存在超出这一限制的重要序列模式。由于网络结构的固有限制,基于 GNN 的模型很难捕捉到这种较长期的序列信息。
幸运的是,Transformer 架构似乎为解决这些固有的局限性提供了一条途径。由于自关注机制,每个项目都能汇总用户-项目交互序列中所有项目的信息。因此,Transformer 可以捕捉序列数据中的长期依赖关系,并取代卷积神经网络和递归神经网络。然而,虽然Transformer具有全局和自适应聚合信息的能力,但其有效利用图结构信息的能力却受到了限制。这种限制源于Transformer的聚合过程不依赖于边,从而导致对关键历史交互的低估。
在本文中,我们将探究Transformer和 GNNs 的整合是否能利用它们各自的优势来共同提高性能。通过利用变形器,GNN 的接收领域可以扩大,以涵盖更多相关节点,甚至是那些距离中心节点较远的节点。反过来,GNN 也能帮助 Transformers 捕捉复杂的图拓扑信息,并有效地聚合邻近区域的相关节点。尽管如此,将 GNN 和 Transformers 集成到图结构 CF 数据建模中仍面临巨大挑战,主要包括以下三个核心方面。
(1) 如何在注意力采样模块中采样最相关的节点?由于用户-物品交互图可能包含 "感兴趣-不相关 "的连接,直接汇总所有交互边的信息会影响对用户的准确呈现。同时,考虑最相关的节点不仅能降低计算复杂度,还能过滤掉来自噪声节点的无关信息。
(2) Transformers 和 GNN 如何在协作框架中有效结合?鉴于 Transformers 和 GNNs 各自固有的优点,设想一个协作框架,让这两个模块在用户建模中相互促进,是一个合乎逻辑的发展过程。
(3) 如何有效更新注意力样本,避免复杂性耗尽?计算每个中心节点在整个图数据集上的自我关注权重需要
标签:编码,Transformer,论文,TransGNN,笔记,GNN,节点,mathrm From: https://www.cnblogs.com/anewpro-techshare/p/18232245