首页 > 其他分享 >Towards Universal Sequence Representation Learning for Recommender Systems

Towards Universal Sequence Representation Learning for Recommender Systems

时间:2024-05-28 16:58:46浏览次数:28  
标签:tau Towards Recommender Sequence cdot bm sum tilde text

目录

Hou Y., Mu S., Zhao W. X., Li Y., Ding B. and Wen J. Towards Universal Sequence Representation Learning for Recommender Systems. KDD, 2022.

本文提出了一个用 text 替代 ID 的序列模型.

符号说明

  • \([w_1, \ldots, w_c]\), item text;
  • \(\tau\), temperature;
  • \(B\), batch size.

UniSRec

统一的文本表示

  • 首先, 我们用预训练模型 (e.g., BERT) 来得到 item 的一个统一表示:

    \[x_i = \text{BERT}([\text{CLS}]; w_1, \ldots, w_c), \]

    其中 \([\text{CLS}]\) 是一个特殊的 token, 最后 \(x_i\) 就是取的 \([\text{CLS}]\) 位置的 emedding.

  • 接下来, 进行 Parametric whitening, 这被证明能够提高 embedding 的质量, 不同之处在于, 作者这里采用可学习的 (\(\bm{b}, \bm{W}_1\)):

    \[\tilde{\bm{x}}_i = (\bm{x}_i - \bm{b}) \cdot \bm{W}_1. \]

  • Domain Fusion and Adaptation. 为了是的 UniSRec 能够拓展到不同的 domain 上, 作者利用 MoE 进行 fusion:

    \[\bm{v}_i = \sum_{k=1}^G g_k \cdot \tilde{\bm{x}}_i^{(k)}, \\ \bm{g} = \text{Softmax}(\bm{x}_i + \bm{W}_2 + \bm{\delta}), \\ \bm{\delta} = \text{Norm}( \text{Softplus}( \bm{x}_i \cdot \bm{W}_3 ) ). \]

统一的序列表示

  • 通过 transformer 进行序列建模 \(\bm{s}\).

  • 训练的时候, 假设一个 batch 有 \(\{\langle \bm{s}_1, \bm{v}_1 \rangle, \ldots \langle \bm{s}_B, \bm{v}_{B} \rangle\}\), 设计如下的 sequence-item 对比损失:

    \[\ell_{S-I} = -\sum_{j=1}^B \log \frac{ \exp(\bm{s}_j \cdot \bm{v}_j / \tau) }{ \sum_{j'=1}^B \exp(\bm{s}_j \cdot \bm{v}_{j'} / \tau) }. \]

  • 此外, 还有一个 sequence-sequence 的对比损失, 旨在区分来自不同 domain 的序列:

    \[\ell_{S-S} = -\sum_{j=1}^B \log \frac{ \exp( \bm{s}_j \cdot \bm{\tilde{s}}_j / \tau) }{ \sum_{j'=1}^B \exp( \bm{s}_j \cdot \bm{s}_{j'} / \tau) }, \]

    其中 \(\tilde{\bm{s}}_j\) 是通过 Item/Word drop 后得到的另一个 view.

  • 于是预训练的损失为:

    \[\mathcal{L}_{PT} = \ell_{S-I} + \lambda \ell_{S-S}. \]

Parameter-Efficient Fine-tuning

  • 想要扩展到一个新的 domain 很简单, 只需要微调 MoE adaptor 就可以了.

代码

[official-code]

标签:tau,Towards,Recommender,Sequence,cdot,bm,sum,tilde,text
From: https://www.cnblogs.com/MTandHJ/p/18218397

相关文章

  • SwiftUI中的组合动画(Simultaneous, Sequenced, Exclusive)
    了解了常见的几种手势后,接下来我们了解一下组合手势的操作,当一个视图存在多个手势的时候,为了避免手势冲突,SwiftUI提供了自定义手势的方法,比如同时进行,顺序进行等等。以下是一些常见的多种手势组合使用方式:simultaneously(with:):同时使用多个手势,使它们可以同时响应用户的......
  • Mask DINO: Towards A Unified Transformer-based Framework for Object Detection an
    郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.2023. Abstract在本文中,我们提出了一个统一的对象检测和分割框架MaskDINO。MaskDINO通过添加一个支持所有图像分割任务(例如......
  • TS2Vec: 面向通用的时间序列表示《TS2Vec: Towards Universal Representation of Time
    今天是2024年5月22日,10:24,今天看这篇经典的论文(如果你问我为什么最近频繁看论文,因为我的创新点无了,要找创新点+太菜了,菜就多看多学)。论文:TS2Vec:TowardsUniversalRepresentationofTimeSeries或者是:TS2Vec:TowardsUniversalRepresentationofTimeSeriesGitHub:https......
  • poj 3061 Subsequence
    题目链接:来自罗勇军《算法竞赛》书中的习题。题意:给长度为\(N\)的数组和一个整数\(S\),求总和不小于\(S\)的连续子序列的最小长度。方法一:尺取法主要思想为:当\(a_1,a_2,a_3\)满足和\(\geqslantS\),得到一个区间长度\(3\),那么去掉开头\(a_1\),剩下\(a_2,a_3\)......
  • 记一次由sequence引发的enq sv-contention等待事件
    转自:https://www.cnblogs.com/lijiaman/p/10423272.html#4237610数据库版本:11.2.0.4RAC(1)问题现象从EM里面可以看到,在23号早上8:45~8:55时,数据库等待会话暴增,大约到了80个会话。通过查看EM的SQL信息,发现等待产生于SQL语句selectTIMEKEYID.nextvalfromdual (二)问题追踪......
  • MDT 的 Bootstrap.ini 中设置随机计算机名称,你可以使用预定义的 Task Sequence 变量和
    MDT的Bootstrap.ini中设置随机计算机名称,你可以使用预定义的TaskSequence变量和自定义脚本来实现。以下是一个示例:创建PowerShell脚本:powershellCopyCodefunctionGenerate-RandomComputerName{$prefix="PC"#可以是你希望的计算机名称前缀$rand......
  • 240229-mo-ni-sai-t1-xu-lie-sequence-ti-jie
    P4778240229模拟赛T1序列(sequence)的第二问。题意求一个排列每次交换两个位置变成$1\dotsn$的方案数。思路分开考虑每个环。设$f_i$表示大小为$i$的环的答案。每交换一次就将一个环分为两个环。枚举分成的较小的一边是什么,乘两边单独的方案数,两边独立乘一个组合数,......
  • AdaZoom: Towards Scale-Aware Large Scene Object Detection 论文解读
    《AdaZoom:TowardsScale-AwareLargeSceneObjectDetection》笔记1.研究动机1.1挑战与困难小目标检测和对象尺度差异存在挑战现有研究方法对于大场景中如此极端尺度变化的物体缺乏灵活性,缺乏对不同尺度物体的适应性。1.2解决方案构建了一个自适应缩放网络(简称AdaZoom),对......
  • ABC240Ex Sequence of Substrings
    ABC240ExSequenceofSubstringsLIS的好题改编。约定\(S(l,r)\)为字符串\(s\)中第\(l\)位到底\(r\)​位。\(S(l,r)<S(x,y)\)为字符串中\([l,r]\)的子串字典序比\([x,y]\)的子串小。前置LIS的\(n\logn\)求法。题解我们考虑按照类似于朴素LIS的方式设状......
  • A Critical Study on Data Leakage in Recommender System Offline Evaluation
    目录概主要内容数据集统计信息Top-NRecommendationListRecommendationAccuracy理想的切分方式代码JiY.,SunA.,ZhangJ.andLiC.Acriticalstudyondataleakageinrecommendersystemofflineevaluation.TOIS,2022.概本文讨论了现在的推荐系统评价方式(如L......