目录
Paper Reading 是从个人角度进行的一些总结分享,受到个人关注点的侧重和实力所限,可能有理解不到位的地方。具体的细节还需要以原文的内容为准,博客中的图表若未另外说明则均来自原文。
论文概况 | 详细 |
---|---|
标题 | 《Imbalanced regression and extreme value prediction》 |
作者 | Rita P. Ribeiro, Nuno Moniz |
发表期刊 | Machine Learning |
发表年份 | 2020 |
期刊等级 | 中科院 SCI 期刊分区(2023年12月最新升级版)3 区,CCF-B |
论文代码 | https://github.com/nunompmoniz/IRon |
作者单位:
- INESC TEC, Porto, Portugal
- Department of Computer Science, Faculty of Sciences, University of Porto, Porto, Portugal
研究动机
标准的监督学习任务的假设是每个域的值都是同等重要的,然而在很多领域中领域,目标通常是预测不常见事件,也称为罕见/极端情况。不平衡的领域学习任务形式化了这种预测建模场景,它们有两个特征:目标变量的倾斜分布和对代表性不足的样本的域偏好。不平衡分类问题,特别是二元分类问题一直是该课题研究的重点,相比之下关于不平衡回归任务的研究却少之又少。
不平衡回归面临两个重大挑战,首先时提供一种原则性的方法,能够描述连续域上的非统一偏好。下图说明了统一偏好的标准假设与非统一偏好的标准假设之间的区别,在潜在的无限域上指定首选项是必要的,因此可能需要自动方法来指定这些首选项。尽管如此,不能把这些方法建立在关于分布形状的静态假设上(比如正态性假设),这种假设在理论和实践上存在不一致。第二个挑战是找到合适的评估和优化标准,这些标准能够提高模型对极值的预测能力。
文章贡献
为应对不平衡回归任务与度量的形式化问题,本文旨在提供一套新颖的模型评估与优化的基准。本文提出了一种自动和非参数方法,用于推断偏向极端值的非均匀域偏好,解决早期工作中潜在正态分布的假设。接着设计了新的评估指标 SERA(平方误差相关区域),它允许优化和评估模型预测极值的能力,同时对严重的模型偏差具有鲁棒性。通过实验表明评估指标 SERA 为选择和优化程序提供了合适的基准、预测模型性能的分析、影响和预测权衡。
本文方法
不平衡回归的相关函数
控制点
对于不平衡回归而言,目标变量域的取值不是像分类那样是有限个,因此指定所有值的相关性实际上是不可能的,需要近似值。实现近似值需要两个基本的组成部分,一组已知相关性的数据点(控制点),以及使用哪种插值方法。为了获得一个相关函数 Φ∶Y→[0,1],必须将一组控制点 S={⟨yk, Φ(yk), Φ'(yk)⟩sk=1 作为插值算法的输入。其中 yk 为目标值,φ(yk) 为各自的相关值,φ'(yk) 为该点相关函数的预期导数。默认情况下,控制点被假定为相关性的局部最小值或最大值,因此所有的导数 φ'(yk) 都等于零。理想情况下,控制点应该基于领域知识引入,然而这些知识通常是不可用的,甚至根本不存在。为了解决这种情况,本文提出了一种基于目标变量分布的自动获取控制点的方法。
插值方法
插值关注的是在一组数据点给定的范围内的值的估计,目的是在给定一组已知相关性的数据点(即控制点)的情况下估计目标值的相关性。有两种主要的插值方法,分别是统计和样条平滑。本文建议使用分段三次 Hermite 插值多项式(pchip),于 pchip 的能力来保证插值的平滑性,并允许用户控制生成的函数的形状——它需要在每个控制点的导数。该方法通过限制控制点上的一阶导数,保持了数据的局部正性、单调性和凸性。如下为 pchip 的伪代码,展示了如何在一组控制点 S 上执行 pchip。
该算法的一个关键特征是在给定的点上找到正确的斜率,保证了插值是分段单调的,它的导数在任何由控制点定义的区间内都不会改变符号。该方法的流程如下伪代码所示,它在每个控制点估计出合理的导数,一旦一阶导数值已知,pchip 返回的四个系数将为插值的每个区间计算。如果控制点是局部最大值或最小值,则该方法确保导数为零。
在插补过程结束时,评估值 y∈Y 的相关性 φ(y)。对应于估计插值 φ(y),使得 [yk,yk+1] 是 y 所属的控制点插值的区间。通过线性外推,超过控制点集中提供的最大值和最小值,使相关函数保证恒定。例如在 NO2 排放预测问题中,目标是将 LNO2 小时浓度值保持在 5.0 的极限以下,这是一个具有最大相关性的值,而 3.7 具有最小相关性,如下表所示。
基于控制点的这些信息,下给出了两种可能的相关性函数,一个由 pchip 获得,另一个标准三次插值算法 splinefun 获得。结果表明,pchip 生成的关联函数最适合应用目标,通过在控制点使用适当导数的 pchip 方法保证了正性、单调性和凸性的性质,对于域偏好的映射至关重要。
自动和非参数相关函数
缺乏足够的领域知识来定义精确的控制点是一种常见的情况,为了在这种情况下获得相关函数,需要一种自动方法来确定哪些目标值具有最小和最大的相关性。考虑到分布的最极端值被认为是最重要的准确预测,这些值应该具有最大的相关性,相反分布中最常见和最具代表性的值应该具有最小的相关性。
Tukey 的箱线图规则用于描绘连续分布的数据,该方法说明了有关分布的位置、分布、偏度和尾部的信息。它使用一个方框来表示四分位间距(IQR),并使用定义了基于 IQR 的箱线图的栅栏。当超出这个区间时,值被认为是可能的异常值,也就是不平衡回归中的目标情况。该方法的标准规则假设数据点的正态分布,,当学习歪斜和不对称分布时,该规则容易错误地将特定数据点分类为离群值。后来 Hubert 和 Vandervieren 提出了调整后的箱线图,目标是在确定箱线图的栅栏时,使用健壮的偏度测量来纠正对称问题,即被认为是正常值的限制。Tukey 的确定异常值截止值的区间为 [Q1−1.5IQR, Q3+1.5IQR],其中 Q1 和 Q3 分别为第一和第三个四分位数,IQR=Q3−Q1 为四分位数区间。为了使这个区间不容易产生偏差,Hubert 和 Vandervieren 建议将 medcouple 纳入定义中,medcouple 是基于数据的方差和偏度计算,经典偏度系数的稳健替代方案。它是位置和比例不变的,公式定义如下:
其中 Q2 是第二四分位数(中位数),对于所有 xi≠xj,核函数 h 由如下公式定义:
根据 MC 的值,以下间隔将其外部的点标记为潜在的异常值:
根据 Hubert 和 Vandervieren 的研究,使用这种指数函数可以使箱线图具有更多的偏度调整。考虑到不平衡回归任务的背景,调整后的箱线图方法提供了一个更好的选择。主要有两个原因,首先它是非参数的,因此对底层分布更灵活。其次通过使用稳健的偏度度量,该方法更适合于避免错过极端值(异常值)的真实情况。
为了说明两种箱线图之间的区别,在下图中展示了从不同理论分布中人工生成的 1000 个值的 Tukey 箱线图和调整后的箱线图。可以观察到,对于二项分布、Logistic 分布和泊松分布几乎没有差异(绿色),对称分布(如正态分布和 t 分布)在两个箱形图(蓝色)之间呈现出轻微的差异,有严重偏斜的分布(红色):χ2、指数分布、伽玛分布、几何分布、对数正态分布和威布尔分布,Tukey 的箱线图和调整后的箱线图之间的差异变得更加明显,后者识别的极端值(异常值)的数量比前者要小得多。这证实了在排除有关数据分布的任何假设时,调整后的箱线图规则更适合于自动异常点检测。
本文建议使用调整后的箱线图来自动提供控制点,主要基于 Ribeiro(2011) 提出的方法。该方法的目的是获得一个连续的相关函数,该函数将目标变量 Y 的域映射到相关区间 [0,1],从而使 Y 的极值被赋予最大的相关性。因此上邻值和下邻值被认为是极值的阈值,同样 Y 的中位数被认为是不相关的中心性值。以下 3 点组成控制点集:Y 的中值为 0、相关值为 1、上下相邻值为 1。假设所有这些控制点的导数为零,因此它们表示相关函数的局部最大值和最小值,使用 pchip 插值方法处理这组控制点,并导出一个基于极值的关联函数 φ()。
针对空气污染场景,可以使用上述方法自动定义控制点集,如下表所示。
利用这组控制点和 pchip 插值方法,得到的相关函数 φ() 如下图所示(红色)。值得注意的是,对于该特定数据集中最关键的值,所提出的自动方法(红色)获得的相关性函数类似于基于(蓝色)的既定指南获得的相关性函数。
评价指标
在回归任务中通常使用的是 MSE 这类标准指标,这些度量假设统一的域偏好,只关注预测误差的大小。在评估不平衡的领域学习任务时将存在一些潜在问题,例如下表描述了一个使用合成生成的 NO2 排放数据的预测模型 M1 和 M2,对同一组真值的预测结果表明,M1 在较低的数据值下精度更高,M2 在较高的数据值下精度更高。然而在标准指标的度量下,如 MSE 和 MAD 则报告这两个模型之间没有差异。这是因为误差的总体大小是相等的,并且这些度量认为所有的域值都是同等相关的。
本文提出了一种新的评价指标,用以克服评价不平衡回归任务所面临的挑战。这样的度量必须包含关键特征:
- 通过对抗低相关性案例的主导地位,将极端目标值(即高相关性)样本的预测误差最小化;
- 能够防止模型的过度拟合,偏向于预测极端(或接近极端)的目标值,而忽视所有其他情况;
- 允许不对称的损失概念,即相同大小的错误会根据其相关性产生不同的影响;
- 允许模型判别、比较和优势分析。
考虑一个数据集 D={⟨xi, yi⟩}Ni=1 和一个为目标变量 Y 定义的关联函数 φ∶Y→{0,1}。定义由目标值的关联大于或等于阈值 t 的情况形成的子集 Dt∈D,即 Dt ={⟨xi, yi⟩∈D|φ(yi)≥t}。则可以得到模型相对于阈值 t(SERt) 的平方误差相关性的估计,如下公式所示,其中 ŷi 和 yi 分别是样本 i 的预测值和真值。对于这个估计,只考虑由 i∈Dt 组成的预测子集,其中真实目标值的相关性高于特定的阈值点 t。
给定相关值的边界 φ(y)∈[0,1] 可以表示一条曲线,其中每个点表示可能的相关阈值 t 的 SERt 值。这条曲线在当包括所有 t=0 或仅包括最相关的样本 t=1 时,SERt 达到最大值和最低值。另外对于任意 δ∈R+,当 t+δ≤1 是有 SERt≥SERt+δ,假设 SERt+δ 考虑 SERt 中包含的情况的一个子集(或全部),这些性质保证了曲线的递减性和单调性。
在本文中提出了平方误差相关区域(SERA),它表示通过积分得到的 SERt 曲线下的面积,公示如下:
绘制的曲线如下图所示,SERt 曲线提供了域内预测误差大小的概述,以及不同的相关截止值。因此曲线(SERA)下的面积越小,模型就越好。此外注意到当假设一致的偏好 φ(y)= 1时,SERA 等于误差的平方和。
为了优化平方误差,必须找到使平方误差最小的常数。给定目标变量域 Y,我们知道损失函数的平方对该域中的每一个预测值都是可微的。同样 SERt 在预测值之外也是可微的,使SERt 最小的常数 mt 是真实目标值的平均值,只涉及相关值等于或大于指定阈值 t 的目标值,使用以下公式计算。
为了使函数 SERt 关于 mt 最小,需要先对 SERt 求导并令导数为 0,计算过程如下。
另外找到最小化 SERA 的常数也是可能的,SERA 对应于 SERt 在 [0,1] 关联区间上的积分。假设 SERt 是可微的,通过应用微积分基本定理,SERA 也是可微的。因此使 SERA 最小的常数 m 由以下公式给出。
需要先对 SERA 求导并令导数为 0,计算过程如下。
虽然本文的目标主要是估计模型在预测极值方面的有效性,但 SERA 并没有完全抛弃模型在平均目标值情况下的性能影响。因此 SERA 包含了前面提到的特征,也就是通过具有不对称损失概念的模型优化来减少极端目标值的预测误差,同时防止模型过度拟合到高度相关的情况。
使用 R 包中可用的不同学习算法:随机森林 rf、CART(rpart) 和多自适应回归样条 mars,下图展示了这些学习算法的三个模型之间的比较,使用 MSE 和 SERA 进行评估。在不平衡回归的朴素均值、等效、朴素极值三种不同和常见的情况下,第一种和第三种表示根据 MSE 的最佳模型倾向于预测具有平均值的情况,或者模型倾向于预测具有极端值的所有情况的配置,第二个描述了 MSE 和 SERA 的结论一致的场景。
这组实验数据如下表所示,对于朴素平均情景(左),与 mars 模型相比,rf 模型获得了最好的 MSE 评分,但 SERA 评分较差。结合 SERA 进行分析,尽管 rf 模型呈现出较低的总体预测误差,但它显示出较低的正确建模极值样本的能力。鉴于本文的目标是准确预测高度相关样本的目标值,这表明 MSE 分数在这种情况下可能会产生误导。对于朴素的极端情景(右),结果表明 rf 模型是 MSE 和 SERA 指标的最佳模型。然而关于 rpart 和 mars 模型的结果是矛盾的,尽管前者的 MSE 得分较差,但它在 SERA 方面表现出优势。通过分析 SERA 可知尽管 mars 模型在最极端值方面显示出较低的预测误差,但它在其余部分也实现了相当高的预测误差水平。因此使用 SERA 度量的优化提供了防止模型过度拟合的能力,以预测极端(或接近极端)的目标值。实验表明 SERA 对不平衡回归任务的评估有重要贡献,允许评估集中在模型对极值的预测能力上。
实验结果
数据集和实验设置
实验使用了来自不同领域的回归数据集,然后应用调整箱型图方法来评估每个数据集中目标值的分布是否有极值存在,基本信息如下表所示。
使用的学习算法有:CART 回归树(rpart)、多元自适应样条回归(mars)、支持向量机(svm)、随机森林(rf)和 bagging,参数使用网格搜索,如下表所示。实验结果采用 MSE 和 SERA 评估指标,使用 2×5 折交叉验证评估方法进行估计。
模型选择实验
对于每个数据集使用 70%/30% 的样本随机分区将数据分为训练集和测试集,使用学习算法/参数配置的每种组合创建一个模型,使用 MSE 和 SERA 指标对模型进行测试集评估。对于每个数据集,根据使用的每个评估指标选择提供最佳近似值的模型,被称为 oracles。
目标是分析不同的评估标准是如何影响学习算法的选择过程及其各自的参数化,实验结果如下图所示,对于每个数据集(列),根据评估指标 SERA(蓝色)和 MSE(绿色)的最佳模型,如果两个指标选择相同的模型,则用红色表示,从未被选中的模型被标记为灰色背景。结果表明,评价指标 MSE 和 SERA 在 34 个数据集中的 12 个中选择了不同的模型。在其中的 9 个案例中(26%),根据上述指标的最佳预测模型属于不同的学习算法,有 3 例(9%)模型属于同一算法但参数设置不同。
尽管如此,在不平衡回归任务的背景下,这样的分析并不能充分说明这些模型在预测性能方面的影响。下图提供了数据集 9、12 和 15的 SER 曲线描述,其中 MSE(绿色)和 SERA(蓝色)指标从不同的学习算法中选择模型。结果表明,由 MSE 度量选择的模型倾向于在整个域内表现出较低的平方和误差。关注那些具有更高相关性的模型时,由 SERA 度量选择的模型提供了相当好的预测性能。
为了进一步证明这种权衡,下图展示了根据 MSE 的 oracle(最佳)模型和根据 SERA 的 oracle 模型的 SER 分数百分比差异的平滑条件平均值。首先使用所有可用的数据集(橙色),其次根据 MSE 和 SERA 度量选择的模型不同的数据集(绿色)。按照如下公式计算每个相关值 t 下 SERt 的百分比差值,其中,SERst 和 SERmt 分别表示 oracle 根据 SERA 和 oracle 根据 MSE 的 SER 评分。
与那些由 MSE 度量选择的模型相比,根据 SERA 在相关性较高的情况下,最好的模型更能够减少预测损失。这种能力不会以极端值的显著偏差为代价,对于相关性大约高于 0.1 的情况,根据 SERA 能对最佳模型进行了有利的权衡。实验说明可以通过使用 SERA 选择模型来提高对极端目标值的预测精度,并不需要预测模型对朴素均值或极端情景(RQ1)有显著的偏差。
尽管在预测偏离分布平均值的目标值方面表现出更好的能力,选择最小化 SERA 的模型的过程可能会增加 MSE 分数。使用偏差-方差框架,根据 MSE 和 SERA 分析最佳模型的均方误差分解,如下图所示。总体而言,根据 SERA 的最佳模型的预测能力在低相关性情况下表现出轻微的下降,相反他们在预测高相关性(RQ2)的情况下的目标值的能力上有了显著的提高。
模型优化
此处将评估用于模型优化的 SERA 度量的能力,通过优化学习算法的参数以最小化 SERA。优化模型参数的最常见方法是使用 k-fold 交叉验证方法的参数网格搜索,但这是一种贪婪的方法,计算开销大而且非常耗时。这种限制是自动机器学习 AutoML 的核心动机之一,AutoML 的研究提供了多种搜索过程和优化算法,能够在合理的时间限制下实现这一目标。实验使用 70%/30% 的案例随机分割将每个数据集分为训练集和测试集,在训练数据集时采用了网格搜索和 Hyperband 两种优化方法,然后使用网格搜索和超带方法优化的模型来预测测试集,检索样本外预测性能的估计。
得到实验结果后,使用贝叶斯符号检验对结果进行分析,使用先前实验评估的 oracle 模型作为基线,来获得网格搜索和 Hyperband 方法获得的模型的样本外 SERA 评分与 oracle 模型的 SERA 评分之间的百分比差异。将百分比差额按如下公式计算:
鉴于此可以定义实际等效区域(ROPE),实际等价意味着值的差异在特定范围内的概率可以被认为几乎没有影响。根据这个思想,本文认为如果模型与 oracle 模型之间的 SERA 分数百分比差小于 -1%,则前者优于后者(获胜);如果百分比差异在 [-1%,1%] 区间内,则它们具有实际等效性;如果百分比差异大于 1% 则 oracle 优于模型。下图展示了在考虑实验评估中使用的所有数据集的情况下,与 oracle 模型相比,获胜、平局和失败的概率比例。可见优化的模型在实际中与 oracle 模型等效或优于 oracle 模型的概率超过50%,在使用网格搜索时为 66%,使用Hyperband 优化的模型为 54%。这样的结果为 SERA 度量的一个重要方面提供了证据:它作为学习算法优化的度量的有用性及其在不平衡回归任务的背景下的参数化。
优点和创新点
个人认为,本文有如下一些优点和创新点可供参考学习:
- 在不平衡回归的相关性函数方面,本文通过控制点和差值算法两个部分给出更加具体的定义和实现方案;
- 针对相关性阈值的指定问题,本文提出了一种自动化的非参数相关函数,可以作为一种灵活的、适合多种领域数据的通用方法;
- 在不平衡回归指标的设计上,本文提出的 SERA 评分能有效对模型的不平衡回归性能进行度量,并且能用其对模型进行优化。