Long-Sequence Recommendation Models Need Decoupled Embeddings

时间：2024-10-06 10:23:28浏览次数：9

标签：Embeddings Sequence Models 投影 Long embedding 如上图 Decoupled

概
Decoupled Attention and Representation Embeddings (DARE) model

Feng N., Pang J., Wu J., Chen B., Wang X., Li Q., Hu X., Jiang J. and Long M. Long-sequence recommendation models need decoupled embeddings. 2024.

概

通过 embedding 选择短序列, 最好从一个独立的 embedding table 中选择.

Decoupled Attention and Representation Embeddings (DARE) model

现在推荐系统中常常会出现很长很长的序列, 这个时候, 出于效率的角度考虑, 我们通常会从中挑选出一个更为合适的短序列. 最流行的挑选方式就是利用 attention 来进行选择. 但是作者发现这么做有一些问题.

作者分别对从 attention 出得到的梯度和从 embedding 本身得到的梯度进行分析, 如上图所示, 发现二者的梯度方向大部分是不一致的.

一种看似可行的方案是利用投影矩阵, 但是作者发现这个在推荐领域似乎并不那么有用. 如上图所示, 在 Taobao 这个数据集上, 加入了投影反而起到了反作用.
作者认为这可能是因为投影矩阵过于小导致的. 因为在推荐中, embedding 的维度通常不会设置的很大, 所以这导致投影矩阵的表达能力有限 (个人认为, 从空间的角度考虑, 其实是 embedding 所表示的空间太小了).

如上图所示, 作者在 NLP 的任务做了一个测试, 当 embedding dimension 增加的时候, 投影矩阵的大小也随之增加, 在 dimension 很小的时候, 线性投影没啥作用, 之后当大到一定程度才会有所作用.
所以最终的方案就是, embedding 的表示和检索采取两个独立的 embedding table:

标签：Embeddings,Sequence,Models,投影,Long,embedding,如上图,Decoupled
From： https://www.cnblogs.com/MTandHJ/p/18448886

自然语言处理之话题建模：Neural Topic Models：神经主题模型的未来趋势与研究方向_
自然语言处理之话题建模：NeuralTopicModels：神经主题模型的未来趋势与研究方向引言话题建模的定义与重要性话题建模是一种统计建模技术，用于发现文档集合或语料库中隐藏的主题结构。在自然语言处理（NLP）领域，话题建模被广泛应用于文本挖掘、信息检索、文本分类和推荐系统等......
CS 839: FOUNDATION MODELS
CS839:FOUNDATIONMODELSHOMEWORK1Instructions:Readthetwoproblemsbelow.TypeupyourresultsandincludeyourplotsinLaTeX.Submityouranswersintwoweeks(i.e.,Oct.32024,endofday).Youwillneedamachineforthisassignment,butalapto......
ABC221G Jumping Sequences 题解
JumpingSequences把移动的上下左右改成左上、左下、右上、右下（坐标轴旋转\(45\)°）。则最终目的地是\((A+B,A-B)\)。（以前移动的方式是\((\pmd_i,0),(0,\pmd_i)\)。现在每次移动的方式是\((\pmd_i,\pmd_i)\)）则\(x,y\)两维可以分开考虑。目标：从\(d_1\simd_n\)中选......
题解：CF1976D Invertible Bracket Sequences
可以在cnblog中阅读。题意给一个合法括号序列，问有多少区间\([l,r]\)，使得将区间内的每个括号翻转后，括号序列仍合法。分析十分套路地，我们将(看成\(+1\)，将)看成\(-1\)，则一个括号序列合法的充要条件是转换后的序列满足：前缀和任意位置非负；最后一项为\(0\)。考虑翻转......
【FPGA开发】一文轻松入门Modelsim的简单操作
Modelsim仿真的步骤（1）创建新的工程。（2）在弹出的窗口中，确定项目名和工作路径，库保持为work不变。（3）添加已经存在的文件（rtl代码和tb代码）。如果这里关闭后，还想继续添加，也可以直接在界面空白处右键进行添加。加错......
Explicit Inductive Inference using Large Language Models
本文是LLM系列文章，针对《ExplicitInductiveInferenceusingLargeLanguageModels》的翻译。使用大型语言模型进行显式归纳推理摘要1引言2相关工作3显示归纳推理4实验设置5结果和讨论6结论局限性摘要据报道，大型语言模型(LLM)在推理任务上存在不......
A Closer Look into Mixture-of-Experts in Large Language Models
本文是LLM系列文章，针对《ACloserLookintoMixture-of-ExpertsinLargeLanguageModels》的翻译。仔细研究大型语言模型中的专家混合摘要1引言2前言：混合专家3概述4静态参数分析5动态行为分析6讨论7相关工作8结论9局限性摘要专家混合（MoE）因其......
LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models
本文是LLM系列文章，针对《LogParser-LLM:AdvancingEfficientLogParsingwithLargeLanguageModels》的翻译。LogParser-LLM：利用大型语言模型推进高效日志解析摘要1引言2相关工作和动机3日志解析粒度4方法5实验6结论摘要日志是无处不在的数字足迹......
Pruning Large Language Models with Semi-Structural Adaptive Sparse Training
本文是LLM系列文章，针对《PruningLargeLanguageModelswithSemi-StructuralAdaptiveSparseTraining》的翻译。通过半结构化自适应稀疏训练修剪大型语言模型摘要1引言2相关工作3方法4实验5结论摘要大型语言模型（LLM）在各种复杂任务中的巨大成功在很......
Balanced Subsequences
首先知道结论：折现图上最低点的纵坐标为\(k-m\)。简单证明：考虑贪心这匹配过程（左括号+1，右括号-1），每次如果遇到向下的小于0的段，我们把其抹平，然后让后面所有点都+上某个值，最后一直这样操作，答案就是在y正轴上面的右括号/-1/下降个数。感性理解就是对于那个最低的在y负半轴......

Long-Sequence Recommendation Models Need Decoupled Embeddings

概

Decoupled Attention and Representation Embeddings (DARE) model

相关文章

赞助商

阅读排行