首页 > 其他分享 >Improving News Recommendation via Bottlenecked Multi-task Pre-training论文阅读笔记

Improving News Recommendation via Bottlenecked Multi-task Pre-training论文阅读笔记

时间:2024-07-15 11:09:23浏览次数:12  
标签:Pre Multi via 解码器 新闻 编码器 嵌入 掩码 PLM

Improving News Recommendation via Bottlenecked Multi-task Pre-training论文阅读笔记

Abstract

现存的问题:

​ 现有的 PLM 大多是在大规模通用语料库上预先训练的,并没有专门用于捕捉新闻文章中的丰富信息。因此,它们生成的新闻嵌入信息可能不足以表示新闻内容或描述新闻之间的关系。

提出方法:

为 了解决这个问题,我们提出了一种瓶颈多任务预训练方法,它依赖于信息瓶颈编码器-解码器架构,将有用的语义信息压缩到新闻嵌入中。具体来说,我们设计了三个预训练任务,以强制新闻嵌入恢复自身的新闻内容、频繁出现的相邻新闻以及主题相似的新闻。

Introduction

​ 尽管取得了成功,但基于 PLM 的新闻推荐模型仍存在两大缺陷,会影响其性能。首先,现有的 PLM 大多是在一般语料库(如维基百科)上预先训练的。这种预训练数据与新闻文章不同,后者通常包含丰富的实体(如国家和名人姓名)和最新内容。因此,现有 PLM 的输出表示可能无法完全捕捉和理解新闻文章中的上述基本信息,尽管它们在新闻中发挥着吸引用户的关键作用。其次,这些 PLM 大多采用掩码语言模型(MLM)任务作为预训练任务,其重点是根据上下文标记恢复掩码标记(而非[CLS]标记)。这样,常用的新闻嵌入(即[CLS] 标记的表示)可能无法很好地训练来表示新闻文章中的有用信息。因此,以往的研究表明,这些 PLM 需要大量的训练数据才能适应下游的检索任务。因此,有必要专门针对新闻推荐任务设计更有效的预训练方法。

​ 为了解决这些问题,我们考虑对现有的新闻文章 PLM 进行持续的预训练,并为新闻推荐任务设计特定的预训练任务。为了有效地完成这项任务,PLM 输出的新闻嵌入应该能够很好地表现新闻文章本身,并集中表现出对推荐有用的特征和关系。

​ 在此,我们考虑了新闻之间的两个重要关系,即共同出现和主题相似性(这个与WG4Rec的观点好像),因为与用户历史互动新闻频繁共同出现或主题相似的新闻通常是用户首选的新闻。在此基础上,我们设计了三个预训练目标,依靠 PLM 输出的新闻嵌入来恢复自身、其频繁共现和主题相似的新闻文章。受瓶颈掩码自动编码器方法的启发,我们将三个目标统一为类似的格式,并设计了三个预训练任务,即掩码新闻恢复、掩码共现新闻恢复和掩码主题相似新闻恢复

​ 在这项工作中,我们提出了一种瓶颈多任务预训练方法,用于持续预训练 PLM 骨干,以改进基于 PLM 的新闻推荐模型。在我们的方法中,我们采用了瓶颈编码器-解码器架构进行预训练,其中编码器是 PLM,解码器是三个浅层变换器。给定一篇新闻文章,我们首先通过基于 PLM 的编码器获得其新闻嵌入,然后从新闻文章、其频繁出现的邻近文章和话题相似的文章中积极地屏蔽标记(例如屏蔽 50%),并利用新闻嵌入分别在三个 Transformer 中进行恢复。这样,我们就构建了三个信息瓶颈,强制编码器(即 PLM)将新闻中的有用信息压缩到新闻嵌入中。经过预训练后,新闻嵌入就能高效地适应新闻推荐任务。

​ 请注意,我们的方法只改进了 PLM 的训练,与新闻推荐模型的架构无关。因此,它适用于各种基于 PLM 的新闻推荐方法。

Method

​ 我们的目标是专门针对新闻推荐任务提出一个多任务预训练框架,以迫使 PLM 学习将更多有用信息压缩到新闻嵌入中,并利用这些嵌入生成用户嵌入和估计用户新闻偏好。在我们的方法中,我们采用了瓶颈编码器-解码器架构,该架构由作为编码器的 PLM 和多个浅层解码器组成。在此基础上,我们设计了三个预训练任务,以增强 PLM 编码器产生的新闻嵌入效果。图 1 显示了我们的方法概览。

pk5cojO.png

瓶颈式编码器-解码器架构

​ 为了将有用的特定任务信息压缩到 PLM 输出的新闻嵌入中,我们借鉴了 Masked AutoEncoder ,它采用了瓶颈编码器-解码器结构。编码器是对新闻标题和摘要进行编码并输出新闻嵌入的 PLM。在我们的方法中,我们采用了三个解码器来完成三个不同的预训练任务。每个解码器都是浅层Transformer,利用编码器的新闻嵌入和特殊掩码文本作为输入。然后,这些解码器将依靠新闻嵌入的语义信息来恢复掩码文本。这种方式可以构建一个信息瓶颈,有效地将有用信息注入新闻嵌入。

​ 具体来说,我们使用流行的 PLM BERT作为编码器,也可以用其他 PLM 代替。给定新闻文章的标题和摘要

标签:Pre,Multi,via,解码器,新闻,编码器,嵌入,掩码,PLM
From: https://www.cnblogs.com/anewpro-techshare/p/18302755

相关文章

  • 妙趣横生:利用Echarts实现SpreadJS引用从属关系的可视化魅力
    最新技术资源(建议收藏)https://www.grapecity.com.cn/resources/在金融行业,我们经常会有审计审查的需求,对某个计算结果进行审查,但是这个计算结果可能依赖多个单元格,而且会有会有多级依赖的情况,如果让我们的从业人员靠眼睛找,工作量巨大,而且准确性存疑,基本上死路一条,因此让整个审......
  • 【论文阅读】DeepREL通过自动化关系 API 推理对深度学习库进行模糊测试
    通过自动化关系API推理对深度学习库进行模糊测试论文基本信息ESEC/FSE’22,November14–18,2022,Singapore,Singapore时间:2022-11-07CCFA原文:https://doi.org/10.1145/3540250.3549085摘要近年来,深度学习(DL)受到广泛关注。同时,深度学习系统中的错误可能导致严重后......
  • 工作流-workflow_Dagster or Prefect介绍
    工作流预定工作流动态工作流根据具体的需求和场景选择合适的工作流引擎进行使用Dagster生态PrefectPrefect是一种新的工作流管理系统动态工作流程:Prefect允许用户创建可以基于输入数据或条件进行更改的动态工作流程Prefectisaworkfloworchestrationframewor......
  • 机器人前沿--PalmE:An Embodied Multimodal Language Model 具身多模态大(语言)模型
    首先解释这篇工作名称Palm-E,发表时间为2023.03,其中的Palm是谷歌内部在2022.04开发的大语言模型,功能类似ChatGPT,只是由于各种原因没有那样火起来,E是Embodied的首字母,翻译过来就是具身多模态大语言模型大模型,我们一般习惯将其称为具身多模态大模型。何为具身?这个词听起来非常......
  • MapReduce简述
    概念面向批处理的分布式计算框架;一种编程模型,分为Map(映射)和Reduce(化简)阶段核心思想分而治之,并行计算;移动计算而非移动数据特点计算跟着数据走良好的扩展性(计算能力随着节点数增加近似线性递增)高容错适合海量数据的离线批处理降低了分布式编程的门槛不适合的场景......
  • WPF generate rows and columns via C# dynamically
    //xaml<Windowx:Class="WpfApp214.MainWindow"xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x="http://schemas.microsoft.com/winfx/2006/xaml"xmlns:d="http://schemas.mi......
  • 第3章 Express 的请求与响应(一)
    在本章中,我们将详细探讨如何在Express中处理HTTP请求与响应。这包括解析请求数据、设置响应数据、处理表单数据、使用查询参数等。理解这些内容是开发高效和功能丰富的Web应用程序的基础。1解析请求数据在Express中,可以通过req对象访问HTTP请求的各个部分。......
  • 第3章 Express 的请求与响应(二)
    2设置响应数据在Express中,可以通过res对象设置HTTP响应。常见的响应方法包括res.send、res.json、res.status、res.sendFile等。2.1发送文本和JSON响应发送文本响应:app.get('/text',(req,res)=>{res.send('Hello,world!');});发送JSON响应:a......
  • WordPress:快速搭建站点,wp安装及模版介绍
    最近搭建个人站点比较多,都是想把业务做到国外,通过google来引流,那我们今年就来介绍一个比较受欢迎的站点平台wordPress。WordPress是使用PHP语言开发的博客平台,用户可以在支持PHP和MySQL数据库的服务器上架设属于自己的网站。也可以把WordPress当作一个内容管理系统(CMS)来使用......
  • 数字电路仿真实验【使用Multisim软件仿真】
    基本逻辑门电路功能测试与门仿真7408TTL2输入端四与门与门逻辑功能测试仿真电路及逻辑转换仪面板图与非门仿真7400TTL2输入端四与非门与非门逻辑功能测试仿真电路及逻辑转换仪面板图编码器电路功能测试通过4532BP优先编码器(8-3线编码器)功能表测试其逻辑功......