Improving News Recommendation via Bottlenecked Multi-task Pre-training论文阅读笔记
Abstract
现存的问题:
现有的 PLM 大多是在大规模通用语料库上预先训练的,并没有专门用于捕捉新闻文章中的丰富信息。因此,它们生成的新闻嵌入信息可能不足以表示新闻内容或描述新闻之间的关系。
提出方法:
为 了解决这个问题,我们提出了一种瓶颈多任务预训练方法,它依赖于信息瓶颈编码器-解码器架构,将有用的语义信息压缩到新闻嵌入中。具体来说,我们设计了三个预训练任务,以强制新闻嵌入恢复自身的新闻内容、频繁出现的相邻新闻以及主题相似的新闻。
Introduction
尽管取得了成功,但基于 PLM 的新闻推荐模型仍存在两大缺陷,会影响其性能。首先,现有的 PLM 大多是在一般语料库(如维基百科)上预先训练的。这种预训练数据与新闻文章不同,后者通常包含丰富的实体(如国家和名人姓名)和最新内容。因此,现有 PLM 的输出表示可能无法完全捕捉和理解新闻文章中的上述基本信息,尽管它们在新闻中发挥着吸引用户的关键作用。其次,这些 PLM 大多采用掩码语言模型(MLM)任务作为预训练任务,其重点是根据上下文标记恢复掩码标记(而非[CLS]标记)。这样,常用的新闻嵌入(即[CLS] 标记的表示)可能无法很好地训练来表示新闻文章中的有用信息。因此,以往的研究表明,这些 PLM 需要大量的训练数据才能适应下游的检索任务。因此,有必要专门针对新闻推荐任务设计更有效的预训练方法。
为了解决这些问题,我们考虑对现有的新闻文章 PLM 进行持续的预训练,并为新闻推荐任务设计特定的预训练任务。为了有效地完成这项任务,PLM 输出的新闻嵌入应该能够很好地表现新闻文章本身,并集中表现出对推荐有用的特征和关系。
在此,我们考虑了新闻之间的两个重要关系,即共同出现和主题相似性(这个与WG4Rec的观点好像),因为与用户历史互动新闻频繁共同出现或主题相似的新闻通常是用户首选的新闻。在此基础上,我们设计了三个预训练目标,依靠 PLM 输出的新闻嵌入来恢复自身、其频繁共现和主题相似的新闻文章。受瓶颈掩码自动编码器方法的启发,我们将三个目标统一为类似的格式,并设计了三个预训练任务,即掩码新闻恢复、掩码共现新闻恢复和掩码主题相似新闻恢复。
在这项工作中,我们提出了一种瓶颈多任务预训练方法,用于持续预训练 PLM 骨干,以改进基于 PLM 的新闻推荐模型。在我们的方法中,我们采用了瓶颈编码器-解码器架构进行预训练,其中编码器是 PLM,解码器是三个浅层变换器。给定一篇新闻文章,我们首先通过基于 PLM 的编码器获得其新闻嵌入,然后从新闻文章、其频繁出现的邻近文章和话题相似的文章中积极地屏蔽标记(例如屏蔽 50%),并利用新闻嵌入分别在三个 Transformer 中进行恢复。这样,我们就构建了三个信息瓶颈,强制编码器(即 PLM)将新闻中的有用信息压缩到新闻嵌入中。经过预训练后,新闻嵌入就能高效地适应新闻推荐任务。
请注意,我们的方法只改进了 PLM 的训练,与新闻推荐模型的架构无关。因此,它适用于各种基于 PLM 的新闻推荐方法。
Method
我们的目标是专门针对新闻推荐任务提出一个多任务预训练框架,以迫使 PLM 学习将更多有用信息压缩到新闻嵌入中,并利用这些嵌入生成用户嵌入和估计用户新闻偏好。在我们的方法中,我们采用了瓶颈编码器-解码器架构,该架构由作为编码器的 PLM 和多个浅层解码器组成。在此基础上,我们设计了三个预训练任务,以增强 PLM 编码器产生的新闻嵌入效果。图 1 显示了我们的方法概览。
瓶颈式编码器-解码器架构
为了将有用的特定任务信息压缩到 PLM 输出的新闻嵌入中,我们借鉴了 Masked AutoEncoder ,它采用了瓶颈编码器-解码器结构。编码器是对新闻标题和摘要进行编码并输出新闻嵌入的 PLM。在我们的方法中,我们采用了三个解码器来完成三个不同的预训练任务。每个解码器都是浅层Transformer,利用编码器的新闻嵌入和特殊掩码文本作为输入。然后,这些解码器将依靠新闻嵌入的语义信息来恢复掩码文本。这种方式可以构建一个信息瓶颈,有效地将有用信息注入新闻嵌入。
具体来说,我们使用流行的 PLM BERT作为编码器,也可以用其他 PLM 代替。给定新闻文章的标题和摘要
标签:Pre,Multi,via,解码器,新闻,编码器,嵌入,掩码,PLM From: https://www.cnblogs.com/anewpro-techshare/p/18302755