IDGenRec: LLM-RecSys Alignment with Textual ID Learning论文阅读笔记
Abstract
为了使 LLM 与推荐需求更好地结合,我们提出了 IDGenRec,使用人类语言标记将每个项目表示为唯一、简洁、语义丰富、平台无关的文本 ID。这是通过与基于 LLM 的推荐器一起训练文本 ID 生成器来实现的,从而将个性化推荐无缝集成到自然语言生成中。值得注意的是,由于用户历史记录是用自然语言表达的,并且与原始数据集分离,我们的方法为基础生成推荐模型提供了可能性。
Introduction
传统方法将推荐视为一种检索(候选选择)和排序过程,而生成式推荐则将其解释为一种直接的文本到文本生成任务:用户的历史记录以文本提示的形式表达,而目标推荐则以自然语言的形式生成。然而,与只阅读和生成人类语言标记的 NLP 任务不同,推荐平台中的项目是一个不断增长的宇宙中的单个实体。因此,如何将项目编码为语言标记(即项目 ID),使其能够轻松地集成到文本到文本范式中,是生成式推荐研究中一个独特而关键的问题。
如果推荐系统中的项目也完全使用人类词汇来表示,每个项目都由一组特定的自然语言标记来描述,那么 LLM 的能力就能更贴近推荐系统的要求。这样,通过在特定于推荐的语料库中进行训练,LLMs 就能学习到真正与推荐相关的知识,从而大大提高模型在推荐任务中的准确性和通用性。
因此,我们认为生成式推荐中理想的 ID 应具备以下特性: 1) 它们应该是由经过预训练的 LLMs 最初处理过的标记组成的文本 ID;2) 它们应该有意义、信息量大并适合推荐目的;3) 生成的 ID 应该简短而唯一,能够有效地识别推荐项目。然而,在现有的项目信息中,显然无法找到满足如此严格要求的 ID。因此,在本文中,我们提出训练一种 ID 生成器,为每个项目自动学习符合上述标准的文本 ID。新框架被命名为 IDGenRec,它将 ID 生成视为另一个文本到文本的过程。
ID 生成器也是一个语言模型,它获取项目的元数据(即关于项目的所有可用文本信息)并生成合格的文本 ID。因此,用户的历史记录和推荐的目标项目都可以用自然语言表示,没有任何 “非文本化 ”的标记,因此适合用于训练基于 LLM 的生成式推荐器。整个过程如图 2 所示。值得注意的是,通过考虑用户历史记录中的所有项目文本,同一 ID 生成器还可以生成另一个文本 ID,作为用户的 ID,代表用户偏好的 “高级轮廓”。用户 ID 的创建是可选的,我们将在实验中提供消融研究结果。
这项工作面临着许多挑战,我们在论文中提出了相关的策略来解决这些问题,包括:
标识生成器应能理解可能包含不必要信息的冗长元数据,并能生成涵盖对推荐非常重要的项目关键细节的标记。为此,我们选择了一个最初为文章标签生成而训练的 T5 模型,并根据推荐目标对其进行了微调
生成的 ID 既要简短又要唯一,适合用于识别推荐项目。然而,自动生成的 ID 并不总是能满足唯一性标准,尤其是随着项目数量的增加。因此,我们提出了一种多样化的 ID 生成算法,以确保每个项目都有一个唯一的 ID。
由于该框架依赖于两个 LLM--ID 生成器和基础推荐器--之间的协作,因此需要精心设计的训练策略来实现它们之间的无缝协作。我们提出了另一种训练策略,即异步训练基于 LLM 的 ID 生成器和基础推荐器,确保它们学习到的知识完全一致。
与判别方法相比,生成模型有几个优点。这些优势包括:将检索和排序过程转化为更精简的生成过程,无需逐一计算项目得分,以及充分利用预先训练的生成式 LLM 中蕴含的丰富知识。
Method
如第 2.1 节所述,我们首先介绍了生成过程,包括如何构建提示以及如何将生成的 ID 整合到文本到文本格式中。然后,在第 2.2 和 2.3 节中,我们将介绍如何利用项目的元数据生成 ID,并采用不同的 ID 生成算法来确保 ID 的唯一性。有了这些生成的 ID,我们将在第 2.4 节中介绍基础推荐系统。最后,在第 2.5 节中,我们演示了如何根据推荐目标交替训练 ID 生成器和推荐器,以确保它们协同有效地工作。
生成过程
这块描述了一下示意图的内容
ID生成器
ID 生成器是一个生成模型,可利用项目的元信息生成项目 ID。元信息包括与物品相关的所有文本数据,包括与推荐目的相关和不相关的方面。这些信息的潜在元素可能包括物品的标题、类别、价格、一般描述、创建时间、受欢迎程度、位置等。具体内容主要取决于平台和数据集。虽然元信息通常以键值字典格式呈现,但我们在处理过程中会将其转换为纯文本
考虑一个项目,其简单描述是一长串代词
标签:IDGenRec,训练,推荐,论文,生成器,笔记,生成,文本,ID From: https://www.cnblogs.com/anewpro-techshare/p/18399272