Improving News Recommendation with Channel-Wise Dynamic Representations and Contrastive User Modeling论文阅读笔记
Abstract
存在的问题:
现有方法大多使用 CNN 和 Self-Attention 等深度学习模型从新闻标题和摘要中提取文本特征,生成特定的新闻向量。然而,基于 CNN 的方法参数固定,无法针对不同输入词提取特定特征,而基于 Self-Attention 的方法计算成本高,难以有效捕捉局部特征。
提出方法:
在我们提出的方法中,我们建立了一个基于类别的动态组件,为不同的输入生成合适的参数,并从多个角度提取局部特征。同时,用户会错误地点击一些自己不感兴趣的新闻词汇,因此数据集中会存在一些交互噪音。为了挖掘用户数据中的关键用户行为,减少噪声数据对用户建模的影响,我们在用户建模中采用了频率感知对比学习方法。
Introduction
一般来说,这些基于 CNN 的方法用固定参数表示每个新闻术语。换句话说,对于不同的输入词,模型以固定参数提取这些词的局部特征。由于不同的词可能包含不同的方面,这些方法无法自适应地提取这种多视角特征。例如,如表 1 所示,新闻术语 "华盛顿国民队投手加入拒绝白宫访问的冠军运动员行列 "主要包含体育信息,但短语 "白宫 "也包含一些政治信息。一个参数固定的模型很难提取出如此多样的特征。相比之下,对不同的输入词采用不同的参数可以有效解决这一问题。
同时,用户的浏览历史记录中存在一定比例的冗余信息。用户的浏览历史通常包含几十条新闻,但并不是所有的新闻术语都对推荐有帮助。例如,用户可能会点击与自己兴趣无关的热门新闻。因此,这些新闻术语在推荐时会分散用户的注意力。同时,用户在使用新闻浏览器时会有很多误操作。用户会错误地点击一些自己不感兴趣的新闻,并立即关闭页面。在这种情况下,这些新闻术语就会被错误地标记为正面例子。根据表 1 中的示例,用户最终点击新闻 C1 是因为他对体育感兴趣。然而,在他的点击历史记录中还有一些与体育无关的新闻术语,如 H4 和 H5,这可能是热门新闻或他误点的新闻。如果我们不对这些新闻词进行处理,就会大大降低用户建模的效果。因此,如何减少噪声数据的影响并探索用户的关键行为仍是一个值得深入研究的问题。
为了解决上述问题,我们提出了 MCCM 模型,它包含通道动态新闻编码器和频率感知对比用户编码器。在新闻编码器中,我们将新闻类别向量映射到多通道卷积核,从而为不同的输入词动态生成特征提取器。此外,我们从原始用户数据中生成新的用户项目,并利用对比学习帮助模型提取用户浏览历史中的关键特征。在此过程中,噪声数据的影响也得到了缓解。本文的主要贡献概述如下:
- 我们为每个词生成特定的特征提取器,并为不同的词从不同的兴趣渠道提取特征。该模型可以提取新闻词汇的局部特征,而不会显著增加计算成本。
- 我们还提出了频率感知对比用户建模模块,该模块采用对比学习来发现用户的基本特征,并增强模型对噪声数据的鲁棒性。
Method
在本节中,我们将对新闻推荐任务进行定义,然后提出我们的方法,其中包括一个频道动态表示模块和一个频率感知对比用户建模模块。我们提出的方法的整体架构如下图所示:
基础新闻编码器
这部分还是先用多头自注意力网络从新闻标题中提取特征,并且添加位置感知的前馈层,得到了每个单词的表示\(m_i\)。
显然,每条新闻的标题和摘要中都有一定数量的关键词,而关键词通常会对用户是否点击当前新闻产生重大影响。因此,我们额外增加了一个关注层,从新闻标题和摘要中自动选择关键词,然后进行加权聚合,得到每个新闻的表示。这个就是一个传统的新闻建模方法
通道感知的动态表示
我们在上述新闻编码器的基础上,增加了一个额外的通道动态表示模块来辅助新闻编码。由多头自注意机制组成的基本新闻编码器主要提取新闻文本中的长距离语义依赖关系,其计算成本高于基于 CNN 的方法。为了在不显著增加计算成本的情况下动态捕获不同词语的多通道表示,我们提出了一个通道动态表示模块,用动态卷积参数表示新闻文本。本节将详细介绍该模块。
在现实世界的数据集中,一个新闻术语可能同时包含多个方面的信息。新闻文本的一部分可能是关于政治的,而另一部分可能是关于体育的。传统的基于 CNN 的方法使用相同的卷积核来处理不同的输入词,使得模型难以探索这种多视角信息。由于真实世界数据集中的新闻类别数量有限,我们假设新闻文本中包含的多视角信息可以归入这些新闻类别。
通过这种方式,我们尝试从多个类别通道中提取每个输入词所包含的信息。我们定义了一组类别向量
标签:MCCM,卷积,新闻,论文,用户,笔记,建模,我们,向量 From: https://www.cnblogs.com/anewpro-techshare/p/18314469