目录
大致内容
-
本文系统介绍了了如何处理 DRO 问题:
\[\min_{\theta} \Bigg\{ \mathcal{R}_f (\theta; P_0) := \sup_{Q \ll P_0} \{\mathbb{E}_Q[\ell(\theta; X)]: D_f(Q\|P_0) \le \rho\}, \Bigg\} \]其中 \(f\) 是一凸函数,
\[D_f(Q\|P_0) := \int f(\frac{dQ}{d P_0}) dP_0 \]为 \(f\)-divergence, 由此可以定义 uncertainty region:
\[\{Q: D_f(Q\|P_0 \le \rho\}. \] -
让我们用人话说就是, 我们希望得到这样的一个最优的参数 \(\theta^*\), 它不仅使得在当前分布 \(P_0\) 上是优良的, 在与 \(P_0\) 相近 (由 uncertainty region 定义)的其它分布上也是优良的. 这一诉求在实际训练模型的时候是很有用的:
- 在实际中我们只有估计 \(\hat{P}_0\);
- 训练的数据分布和测试的数据分布往往有偏差, 但是一般来说这两种分布是相近的, 所以如果我们在 \(\hat{P}_0\) 的 uncertainty region 上进行一个整体的优化, 那么就保证更好地一个泛化性.
-
作者给出, 当我们只考虑 Cressie-Read family 地 f-divergences:
\[f_k(t) := \frac{t^k - kt + k - 1}{k (k - 1)}, \]时有
\[\mathcal{R}_k(\theta; P) = \inf_{\eta \in \mathbb{R}} \{ c_k(\rho) \mathbb{E}_P [(\ell(\theta; X) - \eta)_+^{k_*}]^{\frac{1}{k_*}} + \eta\}, \]其中 \(k_* = k / (k - 1)\), \(c_k(\rho) := (1 + k(k-1)\rho)^{1 / k}\).
-
可以注意到, 实际上 \(\mathcal{R}_k\) 只统计了那些大于 \(\eta\) 的损失, 这意味着, DRO 实际上是一种更关注'少数'群体 (tail) 的一种优化方案, 所以会有更佳的鲁棒性和公平性.
-
更多例子请回看原文.