首页 > 其他分享 >Learning Models with Uniform Performance via Distributionally Robust Optimization

Learning Models with Uniform Performance via Distributionally Robust Optimization

时间:2023-02-26 15:24:58浏览次数:46  
标签:Distributionally via Learning Models uncertainty eta rho mathcal theta

目录

Duchi J. C. and Namkoong H. Learning models with uniform performance via distributionally robust optimization. The Annals of Statistics, 49(3), 1378-1406, 2021.

大致内容

  • 本文系统介绍了了如何处理 DRO 问题:

    \[\min_{\theta} \Bigg\{ \mathcal{R}_f (\theta; P_0) := \sup_{Q \ll P_0} \{\mathbb{E}_Q[\ell(\theta; X)]: D_f(Q\|P_0) \le \rho\}, \Bigg\} \]

    其中 \(f\) 是一凸函数,

    \[D_f(Q\|P_0) := \int f(\frac{dQ}{d P_0}) dP_0 \]

    为 \(f\)-divergence, 由此可以定义 uncertainty region:

    \[\{Q: D_f(Q\|P_0 \le \rho\}. \]

  • 让我们用人话说就是, 我们希望得到这样的一个最优的参数 \(\theta^*\), 它不仅使得在当前分布 \(P_0\) 上是优良的, 在与 \(P_0\) 相近 (由 uncertainty region 定义)的其它分布上也是优良的. 这一诉求在实际训练模型的时候是很有用的:

    1. 在实际中我们只有估计 \(\hat{P}_0\);
    2. 训练的数据分布和测试的数据分布往往有偏差, 但是一般来说这两种分布是相近的, 所以如果我们在 \(\hat{P}_0\) 的 uncertainty region 上进行一个整体的优化, 那么就保证更好地一个泛化性.
  • 作者给出, 当我们只考虑 Cressie-Read family 地 f-divergences:

    \[f_k(t) := \frac{t^k - kt + k - 1}{k (k - 1)}, \]

    时有

    \[\mathcal{R}_k(\theta; P) = \inf_{\eta \in \mathbb{R}} \{ c_k(\rho) \mathbb{E}_P [(\ell(\theta; X) - \eta)_+^{k_*}]^{\frac{1}{k_*}} + \eta\}, \]

    其中 \(k_* = k / (k - 1)\), \(c_k(\rho) := (1 + k(k-1)\rho)^{1 / k}\).

  • 可以注意到, 实际上 \(\mathcal{R}_k\) 只统计了那些大于 \(\eta\) 的损失, 这意味着, DRO 实际上是一种更关注'少数'群体 (tail) 的一种优化方案, 所以会有更佳的鲁棒性和公平性.

  • 更多例子请回看原文.

标签:Distributionally,via,Learning,Models,uncertainty,eta,rho,mathcal,theta
From: https://www.cnblogs.com/MTandHJ/p/17156755.html

相关文章