首页 > 其他分享 >SAID论文阅读笔记

SAID论文阅读笔记

时间:2024-09-03 17:40:42浏览次数:14  
标签:SAID 项目 论文 笔记 嵌入 LLM 序列 文本

Enhancing Sequential Recommendation via LLM-based Semantic Embedding Learning论文阅读笔记

Abstract

现存的问题:

​ 直接根据项目的文本特征从 LLM 中提取表征并将其输入顺序模型,并不能保证文本的语义信息能在这些表征中得到保留。此外,将项目序列中所有项目的文本描述串联成一个长文本,并将其输入 LLM 进行推荐,会产生冗长的标记序列,这在很大程度上降低了实际效率。

解决方案:

​ 在本文中,我们将介绍 SAID,这是一个利用 LLM 来明确学习基于文本的语义对齐项目 ID 嵌入的框架。对于每个条目,SAID 都会使用一个投影模块将条目 ID 转换为嵌入向量,然后将其输入 LLM,以获得该条目所附带的确切描述性文本标记。项目嵌入会强制保留文本描述的细粒度语义信息。此外,学习到的嵌入可以与轻量级的下游顺序模型集成,以获得实用的推荐。

Introduction

​ SRS 中对 LLM 的利用可大致分为两种模式:LLM 增强方法和以 LLM 为中心的方法。

​ 在 LLM 增强范式中,从 LLM 中提取项目文本描述的嵌入,并将其视为项目的特征。这些特征随后会与其他推荐模型整合,如 GRU 或 Transformer。

​ 以 LLM 为中心的方法将项目转换为文本表述,并将其串联成一个长文本序列,然后输入 LLM。之后,LLM 可以直接生成项目描述作为预测,也可以提取序列特征来发现相似项目。

pAVt5lt.png

​ 尽管 LLMs 在顺序推荐领域大有可为,但目前将 LLMs 与 SRS 相结合的研究却表现出一定的局限性。首先,对于 LLM 增强方法而言,通过 LLM 获得的文本嵌入通常是粗粒度的,这对捕捉项目的细微词级属性以表示用户偏好具有挑战性。换句话说,从 LLM 中提取的文本嵌入无法保证保留细粒度的项目文本信息。

​ 其次,以 LLM 为中心的方法在处理冗长的标记序列时会遇到困难,LLM 众所周知的计算复杂性也会造成效率瓶颈。由于 LLM 的推理成本很高,现有的以 LLM 为中心的方法很难达到效率标准。

​ 鉴于上述局限性,本文旨在高效利用 LLM 在 SRS 中的能力。SAID 的主要思想是学习项目嵌入,这些项目嵌入与 LLM 嵌入空间内的项目文本描述准确一致,并能有效地与现成的轻量级序列模型一起使用。为此,SAID 采用了两阶段训练方案。需要注意的是,在推荐场景中,一个项目通常由一个数字 ID 表示,并伴有若干文字描述,如品牌、类别等。

​ 在第一阶段,受面向 LLM 的对齐学习的启发,SAID 利用投影仪模块将项目 ID 转换为嵌入,并将其输入到 LLM 中,从而从 LLM 中明确获得项目的文本标记序列。通过这种方式,SAID 明确地将项目文本描述的细粒度语义保留到嵌入中,即语义对齐嵌入。只有投影器在进行训练,而 LLM 保持固定,梯度通过它传播。

​ 在第二阶段,GRU 或 Transformer 等下游序列模型将利用学习到的条目嵌入来提取整个序列的表示,以便进行推荐。在这一阶段,序列模型将从头开始训练,并对第一阶段学到的嵌入进行微调。训练完成后,下游序列模型和微调后的项目嵌入将用于实际推理。

​ 由于 LLM 不参与第二阶段,而且下游序列模型可以是轻量级的,因此 SAID 实现了卓越的推理效率。此外,得益于基于 LLM 的对齐学习,与以往模型中使用的随机初始化嵌入相比,学习到的项目嵌入大大提高了 SRS 的性能。

​ 本文的主要贡献如下:

  • 我们提出了一种基于 LLM 学习语义项目嵌入的顺序推荐框架。与随机初始化项目嵌入或直接从 LLMs 中提取表示不同,所提出的框架在学习到的嵌入中保留了细粒度的项目文本信息,从而提高了 SRS 的性能。
  • 我们提出了一种对齐学习方案,利用投影仪模块在 LLM 的嵌入空间内学习项目嵌入。固定的 LLM 与轻量级下游序列模型一起,简化了训练和推理过程,增强了其在工业场景中的实用性。

Method

SAID 框架

​ SAID的示意图如下:

pAVNtjP.png

​ SAID 采用两个阶段的训练过程,即(1)语义一致的嵌入学习和(2)与模型无关的顺序推荐训练。在第一阶段,SAID 利用投影仪模块和现成的 LLM 学习生成每个项目的嵌入。每个属性的学习嵌入大小相当于特定 LLM 的单个标记嵌入大小。在第二阶段,利用第一阶段获得的嵌入作为项目的初始特征,然后将其输入下游模型(如 RNN 或 Transformer)以进行顺序推荐。值得注意的是,SAID 与推荐过程中使用的下游模型的具体选择无关,因此赋予了该框架极大的适应性和灵活性。在随后的章节中,我们将分别对上述两个阶段进行详细阐述。

语义对齐的嵌入学习

​ 让

标签:SAID,项目,论文,笔记,嵌入,LLM,序列,文本
From: https://www.cnblogs.com/anewpro-techshare/p/18395042

相关文章

  • 【开题报告】基于Springboot+vue家庭儿童玩具共享系统(程序+源码+论文) 计算机毕业设计
    本系统(程序+源码)带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景随着家庭对儿童早期教育的重视及生活水平的提高,儿童玩具市场需求日益增长,但同时也带来了资源浪费与存储空间不足的问题。许多家庭在购买大量玩具后,发......
  • arXiv最热NLP大模型论文:一文读懂大模型的prompt技术
    引言:探索高效提示方法的重要性在人工智能领域,大语言模型(LLMs)已经成为了自然语言处理(NLP)任务的重要工具。随着模型规模的不断扩大,如何高效地利用这些模型,尤其是在资源有限的情况下,成为了一个迫切需要解决的问题。提示方法(Prompting)作为一种新兴的范式,能够通过简洁的指令引导模型完成......
  • 【论文】OmniVec2:一种基于Transformer的新型大规模网络多模态多任务学习
    前言《OmniVec2:ANovelTransformerbasedNetworkforLargeScaleMultimodalandMultitaskLearning》研究背景研究问题:这篇文章提出了一种新的多模态多任务网络及其相关的训练算法,旨在处理来自约12种不同模态的数据,包括图像、视频、音频、文本、深度、点云、时间序列、表格、图......
  • CM3学习笔记(X)中断输入及悬起行为
    ##中断输入及悬起行为要理解中断的输入和悬起行为,我们首先要理解这几个概念。>中断的状态可以参考FreeRTOS中的任务的状态(仅对比参考),请结合下面的内容配合CM3官方手册7.4的图进行理解。+中断请求:可以理解为我们所说的中断触发标志位+中断悬起状态:这是一个状态位。检测到中......
  • Java基础-学习笔记16
    16线程(基础)1.相关概念进程:进程是程序的一次执行过程,或是正在运行的一个程序。是多态过程,有它自身的产生、存在和消亡的过程。(比如我们使用QQ,就启动了一个进程,操作系统就会为该进程分配内存看见。当我们使用迅雷,又启动了一个进程,操作系统将为迅雷分配新的内存空间。进程一旦中......
  • 代码大模型Wavecoder学习笔记及代码实践
    目录学习笔记摘要(Abstract)介绍(Introduction)CodeSeaXDataset:四任务代码相关指令数据四任务信息增强指令生成1.原始代码收集(WaveCoder-main\WaveCoder-main\src\data\raw_code_collection)2.基于LLM的生成器-鉴别器框架实验设置结果代码生成任务评估:其他代码相关任......
  • DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection
    AbstractWepresentDINO(DETRwithImproveddeNoisinganchOrboxes),astate-of-the-artend-to-endobjectdetector.DINOimprovesoverpreviousDETR-likemodelsinperformanceandefficiencybyusingacontrastivewayfordenoisingtraining,amixedqu......
  • Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Det
    AbstractInthispaper,wepresentanopen-setobjectdetector,calledGroundingDINO,bymarryingTransformer-baseddetectorDINOwithgroundedpre-training,whichcandetectarbitraryobjectswithhumaninputssuchascategorynamesorreferringexpre......
  • 论文笔记——流量预测
    [!NOTE]Ctrl+Enter:表格添加一行Shift+Enter:表格内部换行,相当于末尾加\br论文总结GraphWaveNet2019年,IJCAI,GraphWaveNetforDeepSpatial-TemporalGraphModeling,交通流量预测优势及创新点基于实体之间的关系都是预定的(实际上不是),仅通过固定图结构捕获空间依......