An Attentive Inductive Bias for Sequential Recommendation beyond the Self-Attention

时间：2024-07-07 15:43:48浏览次数：31

标签：bar mathbf ell bm Self Attention text mathcal Attentive

概
符号说明
BSARec (Beyond Self-Attention for Sequential Recommendation)
代码

Shin Y., Choi J., Wi H. and Park N. An attentive inductive bias for sequential recommendation beyond the self-attention. AAAI, 2024.

概

本文在 attention block 中引入高低频滤波.

符号说明

\(\mathcal{U}\), users;
\(\mathcal{V}\), items;
\(\mathcal{S}^u = [v_1^u, v_2^u, \ldots, v_{|\mathcal{S}^u|}^u]\), sequence;
\(\mathbf{E}_{\mathcal{S}^u} \in \mathbb{R}^{L \times d}\), sequence embeddings;
attention matrix:

\[\mathbf{A} = \text{softmax}( \frac{ \mathbf{Q} \mathbf{K}^T }{ \sqrt{d} } ), \quad \mathbf{Q} = \mathbf{E}_{\mathcal{S}^u} \mathbf{W}_Q, \: \mathbf{K} = \mathbf{E}_{\mathcal{S}^u} \mathbf{W}_K. \]
\(\bm{f}_j = [e^{2\pi \mathbf{i} (j-1) \cdot 0}, \ldots, e^{2\pi \mathbf{i} (j - 1)(N-1)}]^T / \sqrt{N} \in \mathbb{R}^N\), 维 DFT (Discrete Fourier Transform) 的第 \(j\) 个基底, 这里 \(\mathbf{i}\) 表示 imaginary unit.

BSARec (Beyond Self-Attention for Sequential Recommendation)

首先, 作者对一般的序列推荐模型如 SASRec, FMLPRec 的演进过程中的 embedding 的奇异值变化和 user embedding 的 cosine similarity 进行比较, 可以发现 embedding 主特征值的主导地位相当明显, 而且随着层数的加深, 越发变得相似. 故而, 作者得出结论, 认为现在的主流的序列推荐模型主要是在学习一个 low-pass 的滤波.
令 DFT 的基底矩阵为 \(\mathcal{F}\), 对于任意的向量 \(\bm{x}\) 我们可以得到它的频域上的表示

\[\bar{\bm{x}} = \mathcal{F} \bm{x}. \]
并令 \(\bar{\bm{x}}_{lfc} \in \mathbb{C}^c\) 表示 \(\bar{\bm{x}}\) 的最低频位置的 \(c\) 个元素, \(\bar{\bm{x}}_{hfc} \in \mathbb{C}^{d-c}\) 表示 \(\bar{\bm{x}}\) 的最高频位置的 \(d-c\) 个元素.
由此, 我们可以通过 Inverse DFT 得到
- \(\bm{x}\) 的低频信号:
  \[\text{LFC} [\bm{x}] = [\bm{f}_1, \bm{f}_2, \ldots, \bm{f}_c] \bar{\bm{x}}_{lfc} \in \mathbb{R}^d. \]
- \(\bm{x}\) 的高频信号:
  \[\text{HFC} [\bm{x}] = [\bm{f}_{c+1}, \bm{f}_{c+2}, \ldots, \bm{f}_d] \bar{\bm{x}}_{hfc} \in \mathbb{R}^d. \]

令 \(\mathbf{X}^{\ell}\) 表示第 \(l\) 层的输入, 则 attention 后的结果为
\[\alpha \mathbf{A}_{\text{IB}}^{\ell} \mathbf{X}^{\ell} + (1 - \alpha) \mathbf{A}^{\ell} \mathbf{X}^{\ell}. \]
其中 \(\mathbf{A}^{\ell} \mathbf{X}^{\ell}\) 对应正常的 attention 机制, 而 \(\mathbf{A}_{\text{IB}}^{\ell} \mathbf{X}^{\ell}\) 则
\[\mathbf{A}_{\text{IB}}^{\ell} \mathbf{X}^{\ell} = \text{LFC}[\mathbf{X}^{\ell}] + \bm{\beta} \text{HFC}[\mathbf{X}^{\ell}], \]
其中 \(\bm{\beta}\) 是可训练的参数, 它可以是每个维度设置一个, 也可以不同维度共享一个 (代码里的是这种方案).

代码

[official]

标签：bar,mathbf,ell,bm,Self,Attention,text,mathcal,Attentive
From： https://www.cnblogs.com/MTandHJ/p/18288546

自注意力机制self-attention
self-attention步骤：（1）得到Q、K、V 扩展到多头注意力机制： self-attention存在缺点：缺少位置信息为每一个输入设置一个positionalvectorei ......
解析Torch中多头注意力`MultiheadAttention`
前沿：这部分内容是《AttentionIsAllYouNeed》出来之后就深入研究了这篇文章的模型结构，也是之后工作那一年进行实际落地的一小部分内容。最近再次使用它，顺带读了torch官方的实现，大家风范的实现，注意很多细节，值得我们学习，也顺带放在这，之后就不再了解这块内容了，过去式了。下......
【YOLOv10改进 - 注意力机制】 MHSA：多头自注意力（Multi-Head Self-Attention）
YOLOv10目标检测创新改进与实战案例专栏专栏链接:YOLOv10创新改进有效涨点介绍摘要我们介绍了BoTNet，这是一个概念简单但功能强大的骨干架构，将自注意力引入多个计算机视觉任务，包括图像分类、物体检测和实例分割。通过仅在ResNet的最后三个瓶颈块中用全局自注意力替换......
在SelfHost项目中获取客户端IP地址
在SelfHost项目中，获取客户端的IP地址比OwinSelfHost项目要复杂一些，可以通过以下方法获得：base.Request.Properties["System.ServiceModel.Channels.RemoteEndpointMessageProperty"].Address创建一个SelfHost项目的大概过程：创建名称为SelfHostSample的Windows窗体应用(.NETF......
在OwinSelfHost项目中获取客户端IP地址
在OwinSelfHost项目中，获取客户端的IP地址可以通过以下方法获得：base.Request.GetOwinContext().Request.RemoteIpAddress创建一个OwinSelfHost项目的大概过程：创建名称为OwinSelfHostSample的Windows窗体应用(.NETFramework)项目；在NuGet包管理器中添加中添加Microsoft.AspNe......
AI算法04-自组织映射神经网络Self-Organizing Map | SOM
自组织映射神经网络自组织映射（SOM）或自组织特征映射（SOFM）是一种类型的人工神经网络（ANN），其使用已训练的无监督学习以产生低维（通常为二维），离散的表示训练样本的输入空间，称为地图，因此是一种减少维数的方法。自组织映射与其他人工神经网络不同，因为它们应用竞争学习而不是纠错学习（例如......
YOLOv10改进 | 注意力篇 | YOLOv10引入24年最新Mamba注意力机制MLLAttention
1. MLLAttention介绍1.1 摘要： Mamba是一种有效的状态空间模型，具有线性计算复杂度。最近，它在处理各种视觉任务的高分辨率输入方面表现出了令人印象深刻的效率。在本文中，我们揭示了强大的Mamba模型与线性注意力Transformer具有惊人的相似之处，而线性注意力Transform......
论文学习_Nebula: Self-Attention for Dynamic Malware Analysis
论文名称发表时间发表期刊期刊等级研究单位Nebula:Self-AttentionforDynamicMalwareAnalysis2024年IEEETIFSCCFA热那亚大学1.引言研究背景与现存问题：动态恶意软件分析是一项至关重要的任务，不仅对于检测而且对于了解整个互联网上广泛传播的威胁而言......
编码器的稀疏注意力块（ProbSparse Self-Attention Block）
编码器的稀疏注意力块（ProbSparseSelf-AttentionBlock）详细解释1.概述稀疏注意力块是Informer模型的核心组件之一，旨在高效处理长时间序列数据。它通过稀疏自注意力机制（ProbSparseSelf-Attention）显著降低计算复杂度，同时保持较高的性能。2.主要组件稀疏注意力块由以下......
cross attention的源码实现，并代码详细讲解
importnumpyasnpdefsoftmax(x,axis=-1):"""Softmax函数，用于计算注意力权重"""e_x=np.exp(x-np.max(x,axis=axis,keepdims=True))returne_x/e_x.sum(axis=axis,keepdims=True)defscaled_dot_product_attention(q,k......

An Attentive Inductive Bias for Sequential Recommendation beyond the Self-Attention

概

符号说明

BSARec (Beyond Self-Attention for Sequential Recommendation)

代码

相关文章

赞助商

阅读排行