Denoising Implicit Feedback for Recommendation论文阅读笔记

标签：Feedback 训练 Denoising 损失 ui CE Recommendation 交互交互作用

Abstract

隐式反馈的普遍性使它们成为构建在线推荐系统的默认选择。虽然大量的隐式反馈缓解了数据的稀疏性问题，但缺点是它们在反映用户的实际满意度方面没有那么干净。例如，在电子商务中，很大一部分点击并不能转化为购买，许多购买最终会得到负面评论。因此，解释隐式反馈中不可避免的噪声对推荐的训练至关重要。

在这项工作中，我们探讨了推荐训练对隐式反馈进行去噪的中心主题。我们发现了噪声隐式反馈的严重负面影响，即拟合噪声数据阻碍了推荐者学习实际的用户偏好。我们的目标是识别和修剪噪声交互，以提高推荐训练的有效性。通过观察正常推荐训练的过程，我们发现噪声反馈在早期阶段通常有较大的损失值。受此启发，我们提出了一种新的训练策略，即自适应去噪训练（ADT），它可以自适应地减少训练过程中的噪声交互。具体来说，我们设计了两种适应性损失公式的范式：截断损失，在每次迭代中丢弃具有动态阈值的大损失样本；以及重加权损失：自适应地降低大损失样本权重。

Introduction

之前的工作指出了隐式反馈和实际用户满意度之间的差距，因为普遍存在的噪声交互(a.k.a.用户不喜欢这个互动的项目）。例如，在电子商务中，很大一部分购买最终会收到负面评论或退货。这是因为隐式交互很容易受到用户的第一印象和其他因素，如标题偏差和位置偏差的影响。此外，现有的研究已经证明了这种假阳性互动对在线服务用户体验的不利影响。然而，很少有关于推荐的研究考虑到内隐反馈的噪声性质。

在这项工作中，我们认为这种假阳性的交互会阻碍推荐者学习实际的用户偏好，从而导致低质量的推荐。解释隐式反馈中不可避免的噪声和执行去噪是至关重要的。目前的消除假阳性的方法都存在以下限制：需要额外的数据来执行去噪，这可能不容易收集。此外，额外的反馈（例如，评级和喜爱）往往是一个较小的规模，这将遭受稀疏性问题的影响。例如，许多用户在看完电影或购买了产品后都不会给出任何反馈。

这项工作探索了去噪隐反馈，在不使用任何额外数据的情况下自动减少假阳性交互的影响。也就是说，我们只依赖于不同用户和项目之间的隐性交互和提取假阳性互动的信号。先前的研究表明，噪声交互相对较难纳入模型，这表明在训练过程中，噪声交互的损失值有不同的模式。在不同推荐者和数据集上的初步实验显示了类似的现象：在训练的早期阶段，假阳性交互的损失值大于真阳性交互的损失值。因此，由于较大的损失，假阳性交互作用会在很大程度上误导早期的推荐训练。更糟糕的是，由于其高表示能力，推荐最终拟合假正交互，这可能会过拟合并损害泛化。因此，去噪的一个潜在想法是减少假阳性交互的影响，例如，用大的损失值修剪交互，其中关键的挑战是同时减少真阳性交互的牺牲。

为此，我们提出了推荐的自适应去噪训练（ADT）策略，该策略在训练过程中动态地删除大量的交互。为了避免失去一般性，我们只关注制定训练损失，它可应用于任何可微模型。详细地说，我们设计了两种范式来制定训练损失： 1)截断损失，它动态地丢弃了大损失的交互作用。2)重加权损失，它自适应地重加权交互作用。对于每一次训练迭代，截断损失通过一个动态阈值去除硬交互（即大损失的交互），该动态阈值在训练期间自动更新。重加权损失动态地分配具有较小权重的硬交互作用，以削弱它们对优化的影响。

本文的主要贡献如下：

我们制定了推荐训练的内隐反馈去噪任务。我们发现了假正交互作用的负面影响，并确定了它们的大损失特征。
我们提出了自适应去噪训练来动态地修剪大损失的交互作用，并引入了两种范式来表示训练损失：截断损失和重加权损失。

Method

在本节中，我们详细介绍了为推荐提出的自适应去噪训练策略。在此之前，我们介绍了启发策略设计的任务制定和观察结果。

问题定义

由于存在有噪声的交互，会误导用户偏好的学习，典型的推荐训练可能导致较差的模型，在干净测试集上缺乏泛化能力。因此，我们制定了一个去噪推荐训练任务为：

\(\Theta^*=\min\mathcal{L}_{CE}(\text{denoise}(\bar{\mathcal{D}}))\)

可靠的交互记为\(D^*\)，隐式交互记为\(\bar{D}\)，点击和加入购物车都可以算隐式交互，购买后的较低评分也可以认为是隐式交互

然后我们定义噪声交互为：\(\left\{(u,i)|y_{ui}^{*}=0\wedge\bar{y}_{ui}=1\right\}\)

在这项工作中，我们专注于去噪假阳性交互作用，并省略假阴性交互作用。这是因为积极的互动是稀疏的，因此假积极的互动可能比假消极的互动更有影响力。请注意，我们没有在去噪推荐训练的任务中，加入任何额外的数据，如显式反馈。这是因为这种反馈在大多数情况下规模较小，受到稀疏性问题的影响更严重

可靠交互与隐式交互构成的混淆矩阵形式如下：

观察

这里只列出结论：深度推荐模型将在早期学习简单、干净的模式，最终记忆所有训练交互

自适应去噪训练

根据观察结果，我们为推荐者提出了ADT策略，即根据训练损失来估计\(P(y_{ui}^{*}=0|\bar{y}_{ui}=1,u,i)\)

本文提出的两种范式如下：

截断损失：这是为了用一个动态阈值函数将硬交互作用的损失值截断为0
重加权损失：在训练过程中，它自适应地分配具有较小权重的硬交互。

接下来以CE损失为例对这两种范式进行详细介绍

截断损失

\(\mathcal{L}_{\text{T-}CE}(u,i)=\begin{cases}0,&\mathcal{L}_{CE}(u,i)>\tau\wedge\bar{y}_{\boldsymbol{u}\boldsymbol{i}}=1\\\mathcal{L}_{CE}(u,i),&\mathrm{otherwise},&\end{cases}\)

这个损失消除了训练中任何大于\(\tau\)的积极交互作用，然后阈值可能不能固定，于是我们采用动态阈值函数，在训练中改变阈值，此外由于不同的数据集的损失值不同，所以将\(\tau(T)\)作为下降率的函数将更加灵活，在下降率和阈值之间存在双射，即我们可以根据下降率

标签：Feedback,训练,Denoising,损失,ui,CE,Recommendation,交互,交互作用
From： https://www.cnblogs.com/anewpro-techshare/p/18059556