首页 > 其他分享 >[WACV2022]Addressing out-of-distribution label noise in webly-labelled data

[WACV2022]Addressing out-of-distribution label noise in webly-labelled data

时间:2024-08-06 19:51:12浏览次数:14  
标签:OOD Addressing noise 标签 样本 webly text tilde ID

该论文考虑了一个现实的场景:数据集来自网络爬虫,即存在开集噪声OOD样本和闭集噪声ID样本。作者提出了一个简单但有效的策略:通过新设计的指标区分OOD样本,并对OOD样本软化(soften)弥补与干净样本的差距,该方法称为:Dynamic Softening of Out-of-distribution Samples (DSOS)。

真实世界噪声主要为OOD噪声

作者在数据集WebVision中分别随机选了2k张图片作为子集(S1、S2、S3),发现主要噪声为OOD,占比约为24.38%,ID噪声占比约为5.32%。

\[\begin{array}{ccccc}\hline&\text{S1}&\text{S2}&\text{S3}&\text{Average}\left(\%\right)\\\hline\text{Correct}&1441&1440&1335&1405.33\left(70.30\right)\\\text{OOD}&460&429&573&487.33\left(24.38\right)\\\text{ID}&98&130&91&106.33\left(5.32\right)\\\hline\end{array} \]

区分OOD与ID样本的新指标:插值熵

DNN在噪声数据集上进行了训练且没有过拟合噪声时,样本可根据置信度分为:

  • 自信的正确预测(干净样本)
  • 自信的不正确样本(ID样本)
  • 不自信的样本(OOD样本)
    但仅对模型的预测作为区分还不够,因为这会导致ID和OOD样本区分不明显。EvidentialMix提出了利用损失的均值和方差区分OOD与ID(原文称这种损失为evidential loss, EDL),但这种方法对于OOD有着较低的置信度。

作者对比了一般的CE损失、EDL和自己的方法在开集噪声率、闭集噪声率分别为0.2的情况下的AUC分数:

\[\begin{array}{llll}\hline&\text{Clcan}&\text{ID}&\text{OOD}\\\hline\text{CE}&95&87&81\\\text{EDL}&93&90&75\\\text{IL entropy}&91&81&94\\\text{IL collision}&93&85&92\\\hline\end{array} \]

作者定义的新指标:collision entropy:

\[l_{detect}=-\log\left(\sum_{c=1}^Cy_{int,c}^2\right) \]

其中模型的预测\(\tilde{Y}\),原标签\(Y\),中间(intermediate)标签\(y_{int}=\frac{y_i+\tilde{y_i}}2\)。对于\(y_{int}\)有3种情况:

  1. low entropy:真实标签与实际标签吻合。
  2. medium entropy:预测标签有较高置信度,但是与真实标签不吻合。
  3. high entropy:预测结果有着较低置信度。

通过\(l_{detect}\)建立的损失分布图,可通过\(-\log0.5\)实现干净/噪声样本的分离(参见fig1. 第6张子图)。这使得作者选择collision entropy作为区分干净样本与噪声样本的指标。对于OOD与ID,作者选择拟合二元Beta混合分布去计算样本属于OOD/ID的先验。

我根据论文的设置重新绘制了一张,对于collision entropy(第4张子图)并没有清晰的beta分布,可见作者给出的fig.1是美化后的结果。除了第50个epoch,还看了40、30,都没有明显的beta分布。

DSOS: 动态软化OOD样本

DSOS目的是为了在分离样本前纠正标签,对于ID样本,使用自信的标签预测代替噪声标签;并促使对不能被纠正的OOD样本输出高熵。

对于最小化经验风险(empirical risk)的定义:

\[R_e=\frac1N\sum_{i=1}^N-y_i^{t}\log h(x_i), \]

其中\(y_i^t\)是对观察到的标签的纠正,\(y_i\)可能是噪声标签,\(h(x_i)\)为模型softmax后的logits。但是OOD样本的标签是无法纠正的,并且作者不建议像之前对OOD从均匀分布中随机选择标签的做法,而是通过软化OOD标签实现高熵预测促进网络校准,empirical risk重写为:

\[R_{e}=- \frac{1}{N_{c}+N_{in}} \sum_{i=1}^{N_{c}+N_{in}}y_{i}^t\log h(x_{i})-\frac1{N_{out}}\sum_{j=1}^{N_{out}}y_s\log h(x_j) \]

其中\(y_s\)为软化标签,对于软化标签的获取,设计一个OOD分类器\(\mathcal{V}=\{v_i\}_{i=1}^N,v_i\in[0,1]\),\(v_i=0\)表示\(x_i\)为OOD样本:\(f(y_i^t,0)=y_s\)为1时表示ID样本/干净样本\(f(y_i^t,1)=y_i^t\)。引入分类器后,empirical risk可重写为:

\[R_e=- \frac{1}{N}\sum_{i=1}^Nf(y_i^t,v_i)\log h(x_i), \]

对于ID样本,使用bootstrap翻新标签,即用预测结果作为标签;对于OOD根据它是OOD的概率软化标签,是OOD的概率越大,软化标签越接近均匀分布。

对于后验概率\(l_{detect}>-\log0.5\)的样本记为\(\tilde{U}=\{\tilde{u}_{i}\}_{i=0}^{N},\ \tilde{u}_{i}\in\{0,1\}\),\(\tilde{u}_{i}=1\)记为ID样本,对应的标签为

\[y_i^b=(1-\tilde{u}_i)y_i+\tilde{u}_i\tilde{y}_i^t. \]

其中\(\tilde{y}_i^t\)为预测标签。对于样本不是OOD样本的量化,用\(\tilde{V}=\{\tilde{v}_i\}_{i=0}^N\)表示,\(\tilde{v}_i=0\)表示样本是OOD,对\(y_i^b\) normalize 再和\(\tilde{v}_i\)计算:

\[y_i^d=\frac{\exp\frac{\tilde{v}_iy_i^b}{\alpha}}{\sum_{c=1}^C\exp\frac{\tilde{v}_iy_{i,c}^b}{\alpha}}. \]

\(\alpha\in[0,1]\)为超参数,\(y^d\)为\(y^b\)的平滑纠正版本,平滑的程度\(\frac{\tilde{v}_i}\alpha\)取决于OOD的概率。对于\(\tilde{U},\tilde{V}\)的更新发生在warmup结束,以及warmup之后的每个epoch,此外在更新的过程不参与梯度计算更新。

额外的正则项

使用\(\tilde{v}_i\)的均值作为权重实现对干净样本和ID样本更好的分离:

\[l_e=-\frac1N\sum_{i=1}^N\tilde{v_i}\sum_{i=1}^Nh(x_i)\log(h(x_i)) \]

最后总的损失:

\[l=-\frac1N\sum_{i=1}^Ny^{d^T}\log(h(x_i))+\gamma l_e \]

参考文献

  1. Albert, Paul, et al. "Addressing out-of-distribution label noise in webly-labelled data." Proceedings of the IEEE/CVF winter conference on applications of computer vision. 2022.

标签:OOD,Addressing,noise,标签,样本,webly,text,tilde,ID
From: https://www.cnblogs.com/zh-jp/p/18345874

相关文章

  • 机器学习策略篇:详解处理数据不匹配问题(Addressing data mismatch)
    处理数据不匹配问题如果您的训练集来自和开发测试集不同的分布,如果错误分析显示有一个数据不匹配的问题该怎么办?这个问题没有完全系统的解决方案,但可以看看一些可以尝试的事情。如果发现有严重的数据不匹配问题,通常会亲自做错误分析,尝试了解训练集和开发测试集的具体差异。技术上......
  • Noisee 和 Suno创作十二生肖震撼视频 – 有详细的实操步骤
    历史文章日赚800,利用淘宝/闲鱼进行AI音乐售卖实操如何让AI生成自己喜欢的歌曲-AI音乐创作的正确方式抖音主播/电商人员有福了,利用Suno创作产品宣传,让产品动起来-小米Su7用sunoAI写粤语歌的方法,博主已经亲自实践可行五音不全也浪漫,521清华学霸为爱人写歌Suno秘籍:音乐高......
  • [NeurIPS2021]Open-set Label Noise Can Improve Robustness Against Inherent Label
    这篇文章与ICML2022的Open-sampling是同一个作者,方法一模一样,只是问题的场景变为噪声标签学习,Open-sampling是长尾问题的场景,可参见写的这篇blog。这两篇文章大致做法完全相同:对biased数据集引入开集数据,在每个epoch分配均匀的闭集标签。如果是longtaileddata,还涉及不平衡问题,......
  • Understanding and Mitigating the Label Noise in Pre-training on Downstream Tasks
    目录概符号说明经验性的结果NoisyModelLearning代码ChenH.,WangJ.,ShahA.,TaoR.,WeiH.,XieX.,SugiyamaM.andRajB.Understandingandmitigatingthelabelnoiseinpre-trainingondownstreamtasks.概本文讨论如果预训练模型在训练的时候存在噪声,会......
  • Noise label相关文章随记
    ContrastiveLearningImprovesModelRobustnessUnderLabelNoise2021观察:监督的鲁棒学习方法在有噪音的时候下降明显半监督的鲁棒学习能利用无标签的数据取得更好的效果那么监督的鲁棒学习方法的性能下降是由标签噪音引起的,还是不够好的表征引起的?作者的答案是学到的表......
  • NOISEDIFFUSION: 改进基于扩散模型的球面线性插值
    Motivation:1.改进自然图像的插值质量:现有的图像插值方法,尤其是那些基于扩散模型的方法,通常在处理非模型生成的自然图像时遇到困难。这些方法往往不能有效地处理自然图像中的复杂和多样的噪声分布,导致插值结果不自然或有明显的图像伪影。2.处理编码噪声的无效性:在图像插值过程......
  • 论文阅读《Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image De
    BeyondaGaussianDenoiser:ResidualLearningofDeepCNNforImageDenoising发表于IEEETRANSACTIONSONIMAGEPROCESSING,VOL.26,NO.7,JULY2017Paper和CodeAbstract:提出前馈去噪卷积神经网络(DnCNNs),将超深层次结构、学习算法和正则化方法的进展纳入图像去噪......
  • Topaz DeNoise AI:一键让照片重获清晰 mac/win版
    TopazDeNoiseAI是一款革命性的图片降噪软件,它利用先进的人工智能算法,帮助用户轻松去除照片中的噪点,恢复图像的清晰度和细节。无论是专业摄影师还是摄影爱好者,TopazDeNoiseAI都能成为他们处理图片时的得力助手。→→↓↓载TopazDeNoiseAImac/win版 该软件的核心优势在......
  • Reference and inspiration from China's strategy for addressing water pollution i
     AccordingtoChina'sthreelineonepermitmeasures,webelievethatthishasacertainreferencevalueforwaterpollutionissuesinAfrica.The"threelines"referstotheecologicalprotectionredline,theenvironmentalqualitybottom......
  • Carbon Trading Scheme——One of China’s Innovative Strategies for Addressing Gl
    IntroductionChina,astheworld’slargestemitterofgreenhousegases,recognizestheurgentneedtotackletheglobalwarmingproblem.Overtheyears,Chinahasimplementedarangeofpoliciesandinitiativesaimedatmitigatingglobalwarming,suchas......