Data Shapley ：机器学习数据的公平估值 ICML2019 斯坦福大学

标签：Shapley 训练 ICML2019 Data TMC 数据预测器

本篇论文的贡献
提供了在机器学习中公平地评估数据的一个公式，利用博弈论提出了数据的Shapley值来量化单个数据点对学习任务的贡献。Data Shapley唯一地满足公平估值的三个自然属性。此外，实证研究表明，数据Shapley还有几个额外的实用功能：1）它与通常的LOO分数相比，提供了更多的观察每个数据点的重要性的见解；2）识别异常值和损坏数据；3）它可以告诉我们如何获取未来的数据来改进预测器。

创新性
通用的评估数据性能的方法是leave-one-out（LOO）test：比较在整个数据集上训练的预测器性能与在减去一点的整个数据集上训练的预测器性能之间的差异。其局限性在于假设每个训练点在训练集中都有两个完全相同的副本。从数据集中移走一个点不会改变预测器，因为其副本依然还在。因此，LOO方法会给每个训练数据点赋值为0，不管实际预测器的性能如何。
Data Shapley则在考虑每个点的对模型的贡献时，不是整个训练集，而是它的一个随机子集。

Data Shapley算法步骤
1.数据ｉ的 Shapley值的定义ϕ i :

V（S）表示在数据集S上评估训练的预测器的性能的指标（例如在特定测试集上的准确率）；Ｃ是任意常量。
2.对Data Shapley进行估算：
计算Shapley需要计算所有可能的边界贡献，其在训练数据大小上成指数级增长。另外，对每个S⊆D，计算V(S)涉及到使用学习算法A在S上学习一个预测器。因此，对实际的数据集计算精确的Shapley值是困难的。采用蒙特卡罗方法来估计Shapley值，将上式表示为一个期望计算问题。
①蒙特卡罗方法：链接: https://blog.csdn.net/weixin_43848614/article/details/108002284
通过设置 C 为C = 1 / n ！，我们将上述公式重写为一个等价的公式：

∏ 为所有数据点的 n! 排列的一致分布，是排列 π 中数据 i 之前的数据点集合。如果 i 是第一个数据，=∅。首先，对数据点的随机排列进行采样。然后，扫描从第一个元素到最后一个元素的排列，计算每个新数据点的边际贡献。在多个蒙特卡罗排列上重复相同的过程，最终对数据Shapley的估计只是所有计算出的边际贡献的平均值。

②截断蒙特卡罗方法（ TMC-Shapley）：

截断表现在7-9行：当扫描采样排列计算边界贡献时，只要V(S)在V(D)的性能容忍度内，截断一个采样排列中的边界贡献的计算，且对该分布中所有剩余数据点的贡献置为0。
②梯度 Shapley（Gradient Shapely）：对每个 S ⊆ D，计算 V(S)需要S学习一个新模型。但是，当数据集较大或预测模型需要较高的计算能力时（eg.深度神经网络），应用 TMC-Shapley可能相当昂贵。

对于一个采样的数据点排列，每次对一个数据点执行梯度下降来更新模型；边际贡献是模型性能的变化。

评估指标和实验结果
评估指标
模型在单独测试集上的预测准确率

实验结果
有价值数据的重要性

将训练集中的数据点从最有价值的数据点移到最没有价值的数据点，每次训练一个新的模型。

（a）从训练中删除最有价值的数据，按三种方法加上均匀抽样排列。Shapley方法识别重要的数据点，删除最重要的对TMC -Shapley或G-Shapley有价值的点比随机删除数据的性能差。对于LOO，情况并非如此。
（b）从训练集中移除较低的TMC -Shapley或G-Shapley值数据可以提高预测器的性能。
（c）获得与训练数据中的高TMC -Shapley或G-Shapley值患者相似的新患者数据加入到模型训练，与随机增加患者相比，这带来了更大的性能提升。
（d）获得与低TMC-Shapley或G-Shapley值患者相似的新患者没有帮助。

标签噪音（错误标记攻击）
在本实验中，给定一个带有噪声标签的训练数据，通过检查从最无价值的数据点到最有价值的数据点来检查和纠正错误标签的例子，并期望错误标签的例子是在最无价值的点中(一些Shapley值为负)