首页 > 其他分享 >IDGenRec论文阅读笔记

IDGenRec论文阅读笔记

时间:2024-09-05 21:35:40浏览次数:10  
标签:IDGenRec 训练 推荐 论文 生成器 笔记 生成 文本 ID

IDGenRec: LLM-RecSys Alignment with Textual ID Learning论文阅读笔记

Abstract

​ 为了使 LLM 与推荐需求更好地结合,我们提出了 IDGenRec,使用人类语言标记将每个项目表示为唯一、简洁、语义丰富、平台无关的文本 ID。这是通过与基于 LLM 的推荐器一起训练文本 ID 生成器来实现的,从而将个性化推荐无缝集成到自然语言生成中。值得注意的是,由于用户历史记录是用自然语言表达的,并且与原始数据集分离,我们的方法为基础生成推荐模型提供了可能性。

Introduction

​ 传统方法将推荐视为一种检索(候选选择)和排序过程,而生成式推荐则将其解释为一种直接的文本到文本生成任务:用户的历史记录以文本提示的形式表达,而目标推荐则以自然语言的形式生成。然而,与只阅读和生成人类语言标记的 NLP 任务不同,推荐平台中的项目是一个不断增长的宇宙中的单个实体。因此,如何将项目编码为语言标记(即项目 ID),使其能够轻松地集成到文本到文本范式中,是生成式推荐研究中一个独特而关键的问题。

​ 如果推荐系统中的项目也完全使用人类词汇来表示,每个项目都由一组特定的自然语言标记来描述,那么 LLM 的能力就能更贴近推荐系统的要求。这样,通过在特定于推荐的语料库中进行训练,LLMs 就能学习到真正与推荐相关的知识,从而大大提高模型在推荐任务中的准确性和通用性。

​ 因此,我们认为生成式推荐中理想的 ID 应具备以下特性: 1) 它们应该是由经过预训练的 LLMs 最初处理过的标记组成的文本 ID;2) 它们应该有意义、信息量大并适合推荐目的;3) 生成的 ID 应该简短而唯一,能够有效地识别推荐项目。然而,在现有的项目信息中,显然无法找到满足如此严格要求的 ID。因此,在本文中,我们提出训练一种 ID 生成器,为每个项目自动学习符合上述标准的文本 ID。新框架被命名为 IDGenRec,它将 ID 生成视为另一个文本到文本的过程。

​ ID 生成器也是一个语言模型,它获取项目的元数据(即关于项目的所有可用文本信息)并生成合格的文本 ID。因此,用户的历史记录和推荐的目标项目都可以用自然语言表示,没有任何 “非文本化 ”的标记,因此适合用于训练基于 LLM 的生成式推荐器。整个过程如图 2 所示。值得注意的是,通过考虑用户历史记录中的所有项目文本,同一 ID 生成器还可以生成另一个文本 ID,作为用户的 ID,代表用户偏好的 “高级轮廓”。用户 ID 的创建是可选的,我们将在实验中提供消融研究结果。

pAZJ5Js.png

​ 这项工作面临着许多挑战,我们在论文中提出了相关的策略来解决这些问题,包括:

​ 标识生成器应能理解可能包含不必要信息的冗长元数据,并能生成涵盖对推荐非常重要的项目关键细节的标记。为此,我们选择了一个最初为文章标签生成而训练的 T5 模型,并根据推荐目标对其进行了微调

​ 生成的 ID 既要简短又要唯一,适合用于识别推荐项目。然而,自动生成的 ID 并不总是能满足唯一性标准,尤其是随着项目数量的增加。因此,我们提出了一种多样化的 ID 生成算法,以确保每个项目都有一个唯一的 ID。

​ 由于该框架依赖于两个 LLM--ID 生成器和基础推荐器--之间的协作,因此需要精心设计的训练策略来实现它们之间的无缝协作。我们提出了另一种训练策略,即异步训练基于 LLM 的 ID 生成器和基础推荐器,确保它们学习到的知识完全一致。

​ 与判别方法相比,生成模型有几个优点。这些优势包括:将检索和排序过程转化为更精简的生成过程,无需逐一计算项目得分,以及充分利用预先训练的生成式 LLM 中蕴含的丰富知识。

Method

​ 如第 2.1 节所述,我们首先介绍了生成过程,包括如何构建提示以及如何将生成的 ID 整合到文本到文本格式中。然后,在第 2.2 和 2.3 节中,我们将介绍如何利用项目的元数据生成 ID,并采用不同的 ID 生成算法来确保 ID 的唯一性。有了这些生成的 ID,我们将在第 2.4 节中介绍基础推荐系统。最后,在第 2.5 节中,我们演示了如何根据推荐目标交替训练 ID 生成器和推荐器,以确保它们协同有效地工作。

生成过程

​ 这块描述了一下示意图的内容

ID生成器

​ ID 生成器是一个生成模型,可利用项目的元信息生成项目 ID。元信息包括与物品相关的所有文本数据,包括与推荐目的相关和不相关的方面。这些信息的潜在元素可能包括物品的标题、类别、价格、一般描述、创建时间、受欢迎程度、位置等。具体内容主要取决于平台和数据集。虽然元信息通常以键值字典格式呈现,但我们在处理过程中会将其转换为纯文本

​ 考虑一个项目,其简单描述是一长串代词

标签:IDGenRec,训练,推荐,论文,生成器,笔记,生成,文本,ID
From: https://www.cnblogs.com/anewpro-techshare/p/18399272

相关文章

  • 【全网最全】2024年数学建模国赛C题保奖思路+成品论文+matlab/python代码等(后续会更新
    您的点赞收藏是我继续更新的最大动力!一定要点击末文的卡片,那是获取资料的入口!解题思路数据读取:使用Pandas库读取Excel文件中的数据。数据清洗:检查数据是否完整,处理可能的重复项或异常值。数据分析:基于地块类型、面积等特征进行基本的数据分析,例如统计每种地块类型的总面积......
  • 【鸿蒙开发笔记】如何理解 UIAbility 组件以及它的生命周期
    UIAbility组件是一种包含了UI的应用组件,主要用于和用户交互。UIAbility组件是系统调度的基本单元,为应用提供绘制界面的窗口,一个应用可以有多个UIAbility组件。每一个UIAbility组件实例都会在最近任务列表中显示为一个对应的任务。那么就存在两种场景:如果要在任务......
  • Java入门笔记1(类和对象前)
    java中使用输入函数import  java.util.ScannerScannersrc=newScanner(System.in)输入两个数,使用方法返回两个数中的最大值importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);......
  • Javascript(基础) 笔记16
    dom操作①document ②object ③model一、查找1.getElementById()根据id值获取元素,返回符合的第一个元素(只会返回第一个)varx=document.getElementById("a");console.log(x);console.dir(x);//以对象形式打印x.style.background="red";x.style.color="yellow......
  • 【2024国赛B题】B题生产过程中的决策问题思路+代码+论文
    订阅本专栏,认真钻研,保省级及以上奖项!若无获奖,本博主免费提供任意两份本博客初级版专栏代码!......
  • 【2024国赛C题】C 题农作物的种植策略思路+代码+论文
    订阅本专栏,认真钻研,保省级及以上奖项!若无获奖,本博主免费提供任意两份本博客初级版专栏代码!......
  • C++学习笔记----6、内存管理(二)---- 数组指针的双向性
            你可能已经看到指针与数组之间的一些重叠。自由内存空间分配的数组由其第一个元素的指针进行访问。栈上的数组通过使用数组语法([])或者正常变量声明来访问。你还会看到的是,其重叠不仅如此,指针与数组有更复杂的关系。1、数组退化至指针        自由内......
  • [全网首发]2024国赛数学建模ABCE题完整思路+py(matlab)代码+成品论文参考+持续更新
    AB题详细思路(含问题一问题二模型)CE题问题一代码+思路已经写好[python+matlab两种都会更新需要完整版的看这里:点击链接加入群聊【2024数学建模国赛资料汇总】:http://qm.qq.com/cgi-bin/qm/qr?_wv=1027&k=lZncBILk30DuPRI1Bd8X-3Djv7ZVZyAv&authKey=kKqNSSEbbZN%2FVKn%2BICO......
  • 【转载】《扩散模型是实时游戏引擎(Diffusion Models Are Real-Time Game Engines)》的
    地址:https://www.youtube.com/watch?v=VniPJII6ak08月29号,谷歌DeepMind发布了一篇名为《扩散模型是实时游戏引擎(DiffusionModelsAreReal-TimeGameEngines)》的论文,向我们展示了世界上第一个完全由神经模型驱动的游戏引擎,GameNGen。这也是历史上首次,AI能在不借助其他......
  • 基于nodejs+vue大学生心理咨询[程序+论文+开题]-计算机毕业设计
    本系统(程序+源码+数据库+调试部署+开发环境)带文档lw万字以上,文末可获取源码系统程序文件列表开题报告内容研究背景随着社会的快速发展与竞争的日益激烈,大学生作为社会的中坚力量,其心理健康问题日益凸显,成为社会各界关注的焦点。大学生活不仅是知识学习的黄金时期,也是个人......