首页 > 其他分享 >Attention Mixtures for Time-Aware Sequential Recommendation

Attention Mixtures for Time-Aware Sequential Recommendation

时间:2023-09-17 10:13:34浏览次数:38  
标签:mathbf Attention Aware MOJITO ui Recommendation 序列 mathcal ldots

目录

Tran V., Salha-Galvan G., Sguerra B. and Hennequin R. Attention mixtures for time-aware sequential recommendation. SIGIR, 2023.

本文希望更好地利用时间信息, 主要是在 short-/long-interest 上地研究, 对于时间信息的利用感觉很一般.

符号说明

  • \(\mathcal{U}\), users;
  • \(\mathcal{V}\), items;
  • \(S_{ui} = (v_1, v_2, \ldots, v_L)\), 用户 \(u\) 的第 \(i\) 个交互序列;
  • \(C_{ui} = (\mathbf{c}, \mathbf{c}_2, \ldots, \mathbf{c}_L)\), 与之相对应的 contextual 信息, 作者假设这些信息是和时间强相关的.

MOJITO

  • MOJITO 其实和普通的 Transformer 没有什么太大的区别, 多了一些小改进.

  • Embedding Layer: 对于 item 和 context 通过普通的 embedding layer 可以得到 \([\mathbf{m}_v^I; \mathbf{m}_c^C]\), 于是整个序列的 embeddings 为:

    \[\mathbf{E}_{S_{ui}, C_{ui}} = [[\mathbf{m}_{v_1}^I; \mathbf{m}_{\mathbf{c}_1}^C], \ldots, [\mathbf{m}_{v_L}^I; \mathbf{m}_{\mathbf{c}_L}^C]] \in \mathbb{R}^{L \times 2d}. \]

  • 然后为他们添加上普通的可学习的位置编码:

    \[\mathbf{P} = [\mathbf{p}_1, \ldots, \mathbf{p}_L]^T \in \mathbb{R}^{L \times 2d}. \]

    得到最终的输入的矩阵:

    \[\mathbf{X}^{(0)} = [\mathbf{x}_1^{(0)}, \ldots, \mathbf{x}_L^{(0)}] \in \mathbb{R}^{L \times 2d}, \]

    其中

    \[\mathbf{x}_l^{(0)} = [\mathbf{m}_{v_l}^I; \mathbf{m}_{\mathbf{c}_l}^C] + \mathbf{p}_l. \]

  • Short-term: 这部分的计算和一般的 Transformer 的模块没有太大的区别 (主要由 attention layer 和 feed-forward layer 构成), 稍微特别之处在于 attention 矩阵的计算:

    \[\mathbf{A}_{j} \sim \sum_{k \in \{it, c\}} p_{kj} \mathcal{N}(\mathbf{A}; \mathbf{Q}_k \mathbf{K}_k^T, \sigma_k^2), \sum_{k \in \{it, c\}} p_{kj} = 1, p_{kj} \ge 0, \]

    其中 \(\mathbf{Q}_k = \mathbf{X}_k \mathbf{W}_Q^k, \mathbf{K}_k = \mathbf{X}_k \mathbf{W}_k^k\). 即最终的 attenton 是从基于 item 序列和 context 序列的 attention 矩阵的高斯混合分布中的一个采样.

  • 注: \(\sigma_k^2\) 作者是明确说明是科学日系的, \(p_{kj}\) 不知是否也是可学习的.

  • Long-term: MOJITO 认为长期兴趣是很重要的一个环节, 故而它会从用户的整个历史交互中采样 \(N\) 个 items \(\mathcal{F} = \{f_1, \ldots, f_N\}\) (注意, 一个 user 这里会有多个交互序列, 所以和短期兴趣建模不同, 这里会用上所有的交互序列). 然后

    \[\tilde{\mathbf{m}}_u (v) = \mathbf{m}_u + \sum_{f \in \mathcal{F} \setminus \{v\}} \frac{e^{\mathbf{m}_f^T \mathbf{m}_v}}{\sum_{f' \in \mathcal{F} \setminus \{v\}} e^{\mathbf{m}_{f'}^T \mathbf{m}_v}} \mathbf{m}_f \in \mathbb{R}^d. \]

代码

[official]

标签:mathbf,Attention,Aware,MOJITO,ui,Recommendation,序列,mathcal,ldots
From: https://www.cnblogs.com/MTandHJ/p/17707865.html

相关文章

  • ACL2022 paper1 CAKE: A Scalable Commonsense-Aware Framework for Multi-View Knowl
    CAKE:用于多视域知识图谱补全的可扩展常识感知框架ACL2022Abstract  知识图谱存储大规模事实三元组,然而不可避免的是图谱仍然具有不完整性。(问题)以往的只是图谱补全模型仅仅依赖于事实域数据进行实体之间缺失关系的预测,忽略了宝贵的常识知识。以往的知识图嵌入技术存在无效负......
  • 【CVPR2022】Shunted Self-Attention via Multi-Scale Token Aggregation
    来自CVPR2022基于多尺度令牌聚合的分流自注意力论文地址:[2111.15193]ShuntedSelf-AttentionviaMulti-ScaleTokenAggregation(arxiv.org)项目地址:https://github.com/OliverRensu/Shunted-Transformer一、Introduction还是经典的ViT的历史遗留问题:ViT中的自注意力计算......
  • JSNeedAttention
    JSAttentionpush返回的是数组增加后的长度!!!对象名可变setFieldsValue({[`bank${index}`]:val});判断是否空对象Object.keys(obj);JSON.stringify(obj)!=="{}";还有$.isEmptyObject(data2);Object.getOwnPropertyNames(data3);//和Object.keys类似关闭标签替......
  • 【学习笔记】Self-attention
    最近想学点NLP的东西,开始看BERT,看了发现transformer知识丢光了,又来看self-attention;看完self-attention发现还得再去学学wordembedding...推荐学习顺序是:wordembedding、self-attention/transformer、BERT(后面可能还会补充新的)我是看的李宏毅老师的课程+pdf,真的很爱他的课........
  • 指令微调LLM进行推荐Recommendation as Instruction Following: A Large Language Mod
    原文地址:https://arxiv.org/abs/2305.07001本文作者将用户偏好、意图等构建为指令,并用这些指令调优一个LLM(3BFlan-T5-XL),该方法对用户友好,用户可以与系统交流获取更准确的推荐。INTRODUCTIONLLM是建立在自然语言文本上的,它不能直接适应基于行为数据的推荐系统。为了减少两者的g......
  • 【问题记录】ApplicationContextAware 注入为空的问题
    1  前言今天在关于流程的群里发现有人问这个问题,简单来记录下哈,也就是Aware注入的时候为什么会为空呢?有的人说static的应该类名.进行等于,也有人说是类上的注解应该是@Component不应该是@Service,那我们来看看。2 剖析首先关于注解的@Service在这里可以理解为跟@C......
  • Time Matters Sequential Recommendation with Complex Temporal Information
    目录概符号说明TASERAbsoluteTemporalModuleRelativeTemporalModuleDecoderYeW.,WangS.,ChenX.,WangX.,QinZ.andYinD.TimeMatters:Sequentialrecommendationwithcomplextemporalinformation.SIGIR,2020.概Absolute+Relative信息,相对来说,在......
  • Position-Enhanced and Time-aware Graph Convolutional Network for Sequential Reco
    Position-EnhancedandTime-awareGraphConvolutionalNetworkforSequentialRecommendations目录Position-EnhancedandTime-awareGraphConvolutionalNetworkforSequentialRecommendations概符号说明PTGCNEmbeddingLayerConvolutionalLayer代码[HuangL.,MaY.,......
  • Time-aware Path Reasoning on Knowledge Graph for Recommendation
    目录概TPRec代码ZhaoY.,WangX.,ChenJ.,WangY.,TangW.,HeX.andXieH.Time-awarepathreasoningonknowledgegraphforrecommendation.TOIS,2022.概本文介绍了一种将时间信息(而非仅仅序列信息)应用到知识图谱上的方法.这里只介绍它对时间信息的提取方......
  • Self-Attention
    Self-Attention参考:https://zhuanlan.zhihu.com/p/619154409在Attentionisallyouneed这篇论文中,可以看到这样一个公式:$Attention(Q,K,V)=softmax(\frac{QK^{T}}{\sqrt{d_k}})V$1.定义input在进行Self-Attention之前,我们首先定义3个1×4的input。pytorch代码如下:......