MIRec: Neural News Recommendation with Multi-Interest and Popularity-Aware Modeling论文阅读笔记

Abstract

现存的问题：

现有方法主要是为每个用户学习一个统一的嵌入向量来代表其兴趣。然而，由于缺乏表现力，单一的嵌入表示法无法充分表达用户的不同兴趣。此外，将新闻流行度纳入新闻推荐可以有效提高准确性，因为不同兴趣的用户都会被当前流行的新闻所吸引。

提出方法：

本文提出了一种多兴趣和流行度感知建模的新闻推荐方法，命名为 MIRec。我们提出了一种新的具有专注学习的新闻编码器，从内容和流行程度中获得点击新闻的统一表示。此外，我们利用一个流行感知的多兴趣提取器来生成用户的多兴趣表示，并消除了偏好建模中新闻流行的偏差。此外，我们还设计了一个候选新闻的流行度预测器，它根据流行度特征、近因性和交互率来衡量其受欢迎程度。最后，我们采用了一种基于用户多兴趣表示和候选新闻的流行程度的门控机制来提出建议。

Introduction

我们在新闻推荐中面临的第一个挑战是，统一的嵌入向量难以反映用户的多种兴趣。我们注意到，之前的大多数研究都获得了用户行为序列的整体表示。然而，用户的兴趣多种多样，涵盖的主题范围也很广。由于缺乏表现力，先前的研究无法用单一的嵌入向量来表达用户的多种兴趣。

同时，现有的大多数方法都忽略了新闻推荐中新闻流行度的影响。由于热门新闻经常包含能吸引读者注意力的信息，不同兴趣的用户会被当前的热门新闻所吸引，而不仅仅是与其特定兴趣相匹配的内容。考虑到新闻流行度的影响，可以获得更准确、更有效的推荐。

为了应对上述挑战，我们设计了一种新颖的多兴趣和流行度感知的新闻推荐方法，称为 MIRec，它不仅充分模拟了用户的不同兴趣，还考虑了候选新闻流行度对推荐的影响。具体来说，我们为历史新闻提出了一个新闻编码器模块，其中包括内容编码器和流行度编码器。内容编码器通过基于文本和实体的自关注和交叉关注机制学习新闻内容的表示，而具有自关注学习功能的流行度编码器则通过考虑新闻实体的关系多样性来衡量新闻流行度。

此外，我们还提出了一种流行度感知多兴趣提取器，以消除偏好建模中新闻流行度的偏差，并为用户建立多兴趣表征模型。同时，对候选新闻采用流行度预测器来预测流行度得分。最后，我们为用户个性化聚合器配备了门控机制，将多兴趣表征与候选新闻的流行度得分结合起来进行推荐。

本文的主要贡献如下：

我们设计了一种新颖的新闻编码器模块，该模块具有注意力学习功能，可从新闻内容和受欢迎程度中获取点击新闻的统一表征，这对于新闻推荐这一特殊场景而言是高效的。
我们提出了一种流行度感知的多兴趣建模方法，通过消除建模和学习多兴趣表征过程中新闻流行度的偏差，准确捕捉用户的不同兴趣。
我们提出了一种独特的新闻流行度衡量方法，根据实体关系数、重复率和互动率预测候选新闻的流行度得分，从而提高用户满意度。

Method

我们提出了一种具有多兴趣和流行度感知建模（MIRec）的新闻推荐方法，图 2 展示了我们的框架。我们首先针对历史新闻提出了一个新闻编码器模块，其中包括内容和流行度编码器。此外，我们还提出了流行感知多兴趣提取器，为用户的多兴趣表征建模，并获得多兴趣匹配得分。此外，我们还针对候选新闻采用了流行度预测器，根据实体关系数、重复性和互动率来预测流行度得分。最后，用户个性化聚合器中的门控机制将多兴趣匹配得分和人气得分结合起来，计算候选新闻的推荐得分。

新闻编码器

我们提出了一个编码器模块，由内容编码器和流行度编码器两部分组成，用于学习新闻的表征。给定一篇新闻文章，我们使用预训练的 Glove 词嵌入[12]进行词初始化，并采用 WikiData2 进行实体初始化。这样，内容编码器就能通过结合文本的语义信息和与知识图谱链接的实体知识信息来学习新闻内容的表示。而流行度编码器则通过考虑维基数据中实体的关系多样性来学习新闻流行度的表示。

如下图所示，内容编码器有三个部分，用于编码不同类型的新闻信息，包括类别、标题和摘要

首先，我们根据新闻类别建立新闻特征模型。为了定位用户兴趣，新闻文章通常会标注类别和子类别，这些类别包含了新闻的重要信息，反映了用户的兴趣。这部分的输入是类别 c 的 ID 和子类别 sc 的 ID。我们使用嵌入层将离散的 ID 转换成低维的密集表示 Ec 和 Esc，并使用密集层学习隐藏的类别表示，如图所示：

$\begin{aligned}\mathbf{s}_{c}&=\mathrm{ReLU}(\mathbf{V}_c\cdot\mathbf{E}_c+\mathbf{b}_c)\\\mathbf{s}_{sc}&=\mathrm{ReLU}(\mathbf{V}_{sc}\cdot\mathbf{E}_{sc}+\mathbf{b}_{sc})\end{aligned}$

基于主题类别s的新闻表示是sc和ssc的总和$\mathbf{s}=\mathbf{s}_c+\mathbf{s}_{sc}$

在以下两部分中，我们建议通过相同的结构从新闻标题和摘要中学习新闻表征。命名实体是指个人、组织、地点或事件等个体。在一篇新闻文章中，单词和实体通常彼此密切相关，因此我们将新闻标题和摘要的文本序列和实体序列 Tt , Et 和 Ta, Ea 作为这两部分的输入。序列中的单词 w 和实体 e 分别通过嵌入层投影到向量 Ew 和 Ee 中。

然后，我们利用多头自注意网络分别从文本和实体上下文中学习单词和实体的表示$\hat{\mathbf{w}}_i,\hat{\mathbf{e}}_j$。我们还利用多头交叉注意网络来捕捉它们在单词和实体之间的相关性$\widetilde{\mathbf{w}}_i,\widetilde{\mathbf{e}}_j$。然后，我们将每个单词和实体的统一表示表示为其表示的总和$\mathbf{w}_i=\hat{\mathbf{w}}_i+\widetilde{\mathbf{w}}_i\mathrm{~and~}\mathbf{e}_j=\hat{\mathbf{e}}_j+\widetilde{\mathbf{w}}_j.$

为了显示新闻标题中不同词语或实体的不同重要性，我们使用注意力网络来分别学习基于词语和实体的新闻表征。后面就是按照示意图那样传统的注意力网络的计算。分别获得单词和实体的加权表示，之后再对这两个表示再应用注意力网络，获取标题/摘要的表示。最后新闻的表示计算为类别、标题和摘要的和。

$\mathbf{n}=\mathbf{s}+\mathbf{s}_t+\mathbf{s}_a.$

如图 4 所示，流行度编码器通过考虑 WikiData 知识图谱中新闻实体的关系多样性来学习新闻流行度的表示，因为关系多样性可以表明一个实体的流行程度，并在一定程度上影响新闻流行度。首先，我们从知识图谱的信息中获取标题中实体 $e_i^t$的关系数，并将其转换为低维密集表示$r_i^t$，然后利用自注意网络聚合每个实体的关系信息，学习新闻流行度表示 p，其公式为

$\mathbf{p}=\text{SelfAtt}([\mathbf{r}_1^t,...,\mathbf{r}_n^t])$

流行度感知的多兴趣提取器

流行感知多兴趣提取器接收用户点击新闻的表征，并为每个用户生成多兴趣表征。

受 PIMI的启发，我们对点击新闻的表征应用了自我关注网络，以选择重要新闻进行用户兴趣建模，并学习由 k 个嵌入向量组成的多兴趣表征。此外，用户可能会因为热门程度高而点击与其兴趣不完全匹配的热门新闻，从而导致基于行为的兴趣建模出现偏差。因此，我们将新闻流行度纳入兴趣建模中，得到注意力矩阵 A 如下

$\mathbf{A}=\mathrm{softmax}(\mathbf{V}_2^{\top\cdot\tanh(\mathbf{V}_1\cdot[\mathbf{N},\mathbf{P}]))}\top $

N和P分别代表新闻内容序列的表示和点击新闻的流行度。

用户 U 的最终多兴趣表示可通过以下方式计算：

$\mathbf{U}=\mathbf{N}\cdot\mathbf{A}$

新闻流行度预测器

由于新闻流行度通常会随着发布时间的推移而下降，因此如何持续预测准确的流行度得分至关重要。在我们的方法中，候选新闻的流行度得分是根据实体关系数、重复率和用户互动率预测的，以便进行推荐。

我们认为，与知名实体相关的新闻更受欢迎，因此使用流行度编码器从候选新闻中实体的关系数中学习流行度$p_c$的表示，这对估计流行度得分非常有参考价值。此外，考虑到热门新闻可能会随着时间的推移而过时，从而降低其受欢迎程度，我们还纳入了再现率和用户互动率，它们可以反映新闻文章的新鲜度。具体来说，我们以小时为单位量化新闻发布时间，并通过嵌入层和密集网络将其转换为嵌入向量 $r_c$。我们还将候选新闻在推荐前的点击时间和展示时间之比作为互动率 $i_c$。由于不同的新闻有不同的生命周期，因此采用特定的聚合器来聚合向量$r_c$和流行度表示$p_c$：

$\begin{aligned}&\mu=\sigma(\mathbf{V}_\mu\cdot[\mathbf{r}_c,\mathbf{p}_c]+\mathbf{b}_\mu)\\&\hat{p}=\mu\cdot(\mathbf{V}_p\cdot\mathbf{p}_c+\mathbf{b}_p)+(1-\mu)\cdot(\mathbf{V}_r\cdot\mathbf{r}_c+\mathbf{b}_r)\end{aligned}$

其中，μ∈（0,1）表示特定的门。

最后，流行度评分$s_p$是$\hat{p}$和交互率$i_c$的乘积:$s_p=\hat{p}\cdot i_c.$

用户个性化聚合器

本节将详细介绍如何获得最终推荐得分。针对目标用户的候选新闻的最终得分 s 是多兴趣匹配得分$s_i$和受欢迎程度得分$s_p$的组合。

对于前者，我们利用 argmax 算子从用户多兴趣表征中选择与候选新闻内容最相关的嵌入向量，并根据兴趣嵌入向量与候选新闻内容表征之间的相关性计算多兴趣匹配得分。相关性可以通过点积来计算，其公式为：

$\begin{aligned}&\mathbf{u}=\mathbf{U}[:,\mathrm{argmax}(\mathbf{U}^\top\cdot\mathbf{n}_c)]\\&s_{i}=\mathbf{u}^\top\cdot\mathbf{n}_c\end{aligned}$

考虑到不同用户对新闻内容和受欢迎程度有不同的偏好，我们提出了一个特定的门 ρ 来结合多兴趣匹配得分 si 和新闻受欢迎程度得分 sp：

$\begin{aligned}&\rho=\sigma(\mathbf{V}_\rho\cdot\mathbf{u}+\mathbf{b}_\rho)\\&s=(1-\rho)\cdot s_i+\rho\cdot s_p\end{aligned}$

模型训练

这里用的传统的损失函数，就不多介绍了。

总结

这篇文章整体读下来还是非常清晰的，这篇文章感觉重点在于流行度建模方面。对历史交互的新闻进行流行度感知的多兴趣提取，也就是在传统的多兴趣提取上加入了流行度的因素。然后是对候选新闻也进行流行度相关的建模，利用了交互率，时效性以及流行度编码来对候选新闻进行建模。最后采用了个性化的聚合方式来进行聚合以及预测。

标签：MIRec,编码器,mathbf,新闻,论文,流行,笔记,用户,兴趣
From： https://www.cnblogs.com/anewpro-techshare/p/18365675

MIRec论文阅读笔记