BSL: Understanding and Improving Softmax Loss for Recommendation

时间：2024-04-02 10:45:48浏览次数：32

标签：mathbb Loss tau Understanding BSL Softmax loss mathcal

概
符号说明
Softmax loss
Bilateral Softmax loss (BSL)
代码

Wu J., Chen J., Wu J., Shi W., Zhang J. and Wang X. BSL: Understanding and Improving Softmax Loss for Recommendation. ICDE, 2024.

概

作者'发现'在协同过滤中, Softmax loss 会比 BCE/BPR 损失效果好很多, 作者认为这是因为 Softmax 实际上等价于 Distributionally Robust Optimization, 所以能够对负样本中的一些噪声免疫, 故而如此有效. 作者进一步对其进行了改进, 使得它对正样本中的噪声也有一定的免疫.

符号说明

\(\mathcal{U}\), users;
\(\mathcal{I}\), items;
\(\mathbf{R} \in \{0, 1\}^{|\mathcal{U}| \times |\mathcal{I}|}\), interaction matrix;
\(\mathcal{S}_u^+ = \{i \in \mathcal{I}| r_{ui} = 1\}\), \(\mathcal{S}_u^- = \{i \in \mathcal{I}| r_{ui} = 0\}\);

Softmax loss

Softmax loss 定义为 (分子部分作者只保留了负样本):

\[\mathcal{L}_{SL}(u) = - \mathbb{E}_{i \in P_u^+} \bigg[ \log \frac{ \exp(f(u, i) / \tau) }{ N^- \mathbb{E}_{j \sim P_u^-}[ \exp(f(u, j) / \tau)] } \bigg]. \]
作者认为上式可以归结为:

\[\mathcal{L}_{SL}(u) = \underbrace{-\mathbb{E}_{i \sim P_u^+}[f(u, i)]}_{\text{Positive Part}} + \underbrace{\tau \log \mathbb{E}_{j \sim P_u^-} [\exp( f(u, j) / \tau)]}_{\text{Negative Part}}, \]
说实话, \(N^-\) 去掉式 ok 的毕竟是常数, 我不是很能理解 Negative Part 前的 \(\tau\) 是哪里来的.
DRO (Distributionally Robust Optimization) 是一种鲁棒优化的技术, 它形如:

\[ \hat{\theta} = \text{argmin}_{\theta} \{ \max_{P \in \mathbb{P}} \mathbb{E}_{x \sim P} [\mathcal{L}(x; \theta)] \}, \\ \mathbb{P} = \{P \in \mathbb{D}: D(P, P_o) \le \eta\}, \]
即 DRO 认为, 最好的参数是使得在原始分布 \(P_o\) 周围的一些分布 \(P \sim \mathbb{P}\) 中的最坏情况也变得能够接受的参数. 所以 DRO 会导致保守但鲁棒的模型, 因而能够免疫一定噪声.
有这样的一个理论: 优化 Softmax loss 等价于在原来的 point-wise loss 上进行 Distributionally Robust Optimization. 故而, Softmax loss 相较于一般的 Point-wise loss 的优势便在于此.
此外, 作者还证明了, 优化 Softmax loss 对于 fairness 也是有帮助的 (参见原文).
\(\tau\) 的作用: 这套理论的优势在于, 能够从鲁棒性的角度去理解 \(\tau\). 根据上面理论的证明 (请看原文), 当 \(\tau\) 减小的时候, Softmax loss 的鲁棒性半径 \(\eta\) 减小, 于是变得越发极端, 反之变得越发保守:

总而言之: 当你认为负样本的噪声很大的时候, 应该增大 \(\tau\), 反之减小 \(\tau\).

Bilateral Softmax loss (BSL)

作者进一步提出 BSL:
\[\mathcal{L}_{BSL}(u) = \underbrace{-\tau_1 \log \mathbb{E}_{i \sim P_u^+} [\exp (f(u, i) / \tau_1)]}_{\text{Positive Part}} + \underbrace{\tau_2 \log \mathbb{E}_{j \sim P_u^-}[ \exp(f(u, j) / \tau_2) ]}_{\text{Negative Part}}. \]
如此一来, 我们就可以通过 \(\tau_1\) 的调节来应对正样本中的噪声.

代码

作者提供了 Negative Sampling 和 In-Batch 两种方式的伪代码:

[official]

标签：mathbb,Loss,tau,Understanding,BSL,Softmax,loss,mathcal
From： https://www.cnblogs.com/MTandHJ/p/18110080

GPT-1原理-Improving Language Understanding by Generative Pre-Training
文章目录前言提出动机模型猜想模型提出模型结构模型参数模型预训练训练的目标训练方式训练参数预训练数据集预训练疑问点模型微调模型输入范式模型训练微调建议微调疑问点实验结果分析GPT-1缺陷前言首先想感慨一波这是当下最流行的大模型的的开篇之作，由OpenAI提......
【BlossomRPC】如何自定义一个RPC协议？
文章目录如何设计一个RPC协议？RPC项目配置中心项目网关项目如何设计一个RPC协议？在上面的需求描述中我们知道，RPC非常重要的一环，就是自己制定符合自己需求的通信协议，这里，我简单的列出了我的协议。publicclassRpcHeaderimplementsSerializable{//publicst......
【BlossomRPC】手把手教你写一个RPC协议
文章目录新的开始什么是RPC?设计一个RPC需要些什么？新的开始经常会遇到一些项目，看着看着就发现看不懂文档了，也就是会出现一些跳过讲解的文章，使得自己很难了解某种中间件的开发全貌，所以想着自己先设计一个比较简易的RPC框架，在实现所有功能的前提下，向公司内部的技术分享......
train_transforms，Normalize，CrossEntropyLoss，optimizer，前向传播进行特征提取，反向传播优
目录train_transforms：变换Normalize(mean=127.5,std=127.5) ：缩放到[-1,1]......
Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss
省去冗长的数学证明，直接看文章的贡献：提出了新的Loss函数以及延迟re-weighting的trick。并在多个数据集，包括情感分类、图像分类进行实验。Motivation&Methods：LDAM(Label-Distribution-AwareMargie)Losstailclasses的信息基本上较少，而且部署的模型通常很大，因此对tailclasse......
Loss Function: MSELoss, CrossEntropyLoss
......
My understanding of pedagogic metalanguage in "The Three-Body Problem "
......
Imagen: Photorealistic Text-to-Image Diffusion Models with Deep Language Underst
名称Imagen:PhotorealisticText-to-ImageDiffusionModelswithDeepLanguageUnderstanding时间：22/05机构：GoogleTL;DR发现使用LLM(T5)可以作为text2image任务的textencoder，并且提升LLM模型size相对于提升imageDM模型size性价比更高，生成的图像保真度更高，内容也更符合文......
BSLTR-梯度下降代码的处理
是否更新x取决于其是否被定义为nn.Parameter。这里是什么意思？在PyTorch中，是否将一个张量(x)更新（在训练过程中通过梯度下降算法调整其值）依赖于它是否被定义为nn.Parameter。nn.Parameter是Tensor的一个子类，专门用于定义模型参数，这些参数是可训练的，也就是说它们可以在模型训练过程......
【CenterFusion】损失函数Loss初始化_get_losses()函数以及计算过程forward()函数-Cen
损失函数Loss初始化_get_losses函数以及计算过程forward函数1.损失函数初始化前序运行逻辑2.损失函数初始化2.1loss函数初始化——Trainer类中的_get_losses()函数2.2model_with_loss的初始化3.loss计算过程前序运行逻辑4.loss计算过程4.1loss计算函数调用关系4.......

BSL: Understanding and Improving Softmax Loss for Recommendation

概

符号说明

Softmax loss

Bilateral Softmax loss (BSL)

代码

相关文章

赞助商

阅读排行