首页 > 其他分享 >论文精读:When Noisy Labels Meet Long Tail Dilemmas A Representation Calibration Method

论文精读:When Noisy Labels Meet Long Tail Dilemmas A Representation Calibration Method

时间:2024-03-13 12:34:03浏览次数:34  
标签:prime 精读 Calibration boldsymbol mu Labels tilde mathcal hat

Introduction

作者考虑了数据集常见的两个问题:1、部分数据被错误得标注;2、数据呈长尾分布。之前涌现了很多工作分别针对这两个问题,但当两者同时存在,它们不能很好的工作。

专门针对噪声标签的方法,总是依赖于一些假设,但这些假设在long-tailed上不一定成立。例如利用memorization effect也就是通过损失大小判断noisy label,但对于tail classes,noisy label与clean label展示的损失相近。受tail classes的分布影响无法得到准确的噪声转换矩阵。

处理long-tailed数据的方法,对于带噪声标签的学习能力较弱。re-sampling 和 re-weighting受noisy label的影响会导致错误标签的积累。

目前同时考虑noisy label 和 long-tailed 的方法可以分为两类:

  1. 在tail classes 上区分clean label 和 noisy label,然后进行后续操作。但用于区分的表征来自于深度神经网络,而深度神经网络又是在noisy long-tailed数据上训练的,因此并不容易区分noisy label。
  2. 用一种统一的框架去处理noisy label 和 long-tailed。这种方式基于强假设,如部分数据具有相同的偶然不确定性,但这在实践中很难检验。

Method

用对比学习增强表征

作者提出了自己的方法,命名为:RCAL(Representation CALibration)。针对第一类的表征学习,作者首先采用无监督对比学习来实现所有训练实例的表示,不受错误标签的影响,更加robust。

具体实现: 作者照搬了MoCo的Encoder,输入\({\bm x}\)随机进行两次数据增强得到\({\bm x}^q,\ {\bm x}^k\)分别使用query encoder\(f(\cdot)\)和key encoder\(f'(\cdot)\)得到表征\({\bm z}^q=f(\boldsymbol{x}^{q}),\ {\bm z}^k=f^{\prime}({\bm x}^k)\)。然后用投影头(2-layer MLP)得到低维嵌入\(\hat{\bm z}^q,\ \hat{\bm z}^k\)。对于输入\({\bm x}_i\)损失函数如下:

\[\mathcal{L}_{con}(x_i)=-\log\frac{\exp(\hat{\boldsymbol{z}}_i^q\cdot\hat{\boldsymbol{z}}_i^k/\tau)}{\Sigma_{\hat{\boldsymbol{z}}^{k^{\prime}}\in\mathcal{A}}\exp(\hat{\boldsymbol{z}}_i^q\cdot\hat{\boldsymbol{z}}^{k^{\prime}}/\tau)},\tag{1} \]

基于获取的表征,执行两种校准策略:分布/个体表征校准。分布表征校准旨在恢复数据损坏前的表征分布。假设每个类的实例服从多元高斯分布,这与之前的假设相比更加合理(这在其他工作中得到证明)。

分布表征校准

获取的表征存在聚类效应,可以在类的层面上进行多元高斯建模。具体来说,根据表征\(z\)使用局部异常值(LOF)算法检测异常值并移除。剩余的第k的类的clean data表示为\(\tilde{\mathcal{S}}_k^{\prime}=\{(z_i,\tilde{y_i})\}_{i=1}^{|\tilde{\mathcal{S}}_k^{\prime}|}\mathrm{~with~}|\tilde{\mathcal{S}_k^{\prime}}|<n_k\),多元高斯分布表示为

\[\begin{aligned}&\hat{\mu}_k=\sum_{\{i|(\boldsymbol{z}_i,\tilde{y}_i)\in\tilde{\mathcal{S}}_k^{\prime}\}}\frac{\boldsymbol{z}_i}{|\tilde{\mathcal{S}}_k^{\prime}|},\\&\hat{\Sigma}_k=\sum_{\{i|(\boldsymbol{z}_i,\tilde{y}_i)\in\tilde{\mathcal{S}}_k^{\prime}\}}\frac{(\boldsymbol{z}_i-\hat{\boldsymbol{\mu}}_k)(\boldsymbol{z}_i-\hat{\boldsymbol{\mu}}_k)^\top}{|\tilde{\mathcal{S}}_k^{\prime}|-1},\end{aligned} \]

由于tail classes数据较少,不足以建立robust的多元高斯分布。受[2]的启发,相似的类具有相似的均值和方差,可以互相借用。而在这里,可以从head classes中借用信息。

\[\begin{aligned} &\mathcal{B}_{k} =\left\{-||\hat{\boldsymbol{\mu}}_i-\hat{\boldsymbol{\mu}}_k||^2\mid i\in\mathcal{G}_h\right\}, \\ &\mathcal{C}_k^q =\left\{i\left|-||\hat{\boldsymbol{\mu}}_i-\hat{\boldsymbol{\mu}}_k||^2\in\operatorname{topq}(\mathcal{B}_k)\right\}.\right. \end{aligned} \]

  • \(\mathcal{B}_{k}\)第k个tail class与head classes(\(\mathcal{G}_h\))均值的L2范数集合。
  • \(\mathcal{C}_k^q\),表示\(\mathcal{B}_{k}\)前q个值最小(最接近)head classes的索引集合。

然后校准tail classes的均值和方差:

\[\begin{aligned} &\omega_{c}^{k} =\frac{n_c||\hat{\boldsymbol{\mu}}_c-\hat{\boldsymbol{\mu}}_k||^2}{\sum_{j\in\mathcal{C}_k^q}n_j||\hat{\boldsymbol{\mu}}_j-\hat{\boldsymbol{\mu}}_k||^2}, \\ &\hat{\mu}_{k}^{\prime} =\gamma\sum_{c\in\mathcal{C}_k^q}\omega_c^k\hat{\boldsymbol{\mu}}_c+(1-\gamma)\hat{\boldsymbol{\mu}}_k, \\ &\hat{\boldsymbol{\Sigma}}_{k}^{\prime} =\gamma\sum_{c\in\mathcal{C}_k^q}\omega_c^k\hat{\boldsymbol{\Sigma}}_c+(1-\gamma)\hat{\boldsymbol{\Sigma}}_k+\alpha\boldsymbol{1}, \end{aligned} \]

\(\omega_{c}^{k}\)表示使用head class的c的统计数据对 tail class的 k的校准。与k更相似的头部类将被赋予较小的权重。此外\(\gamma\)为从head classes统计的置信度。\({\bm 1}\in\mathbb{R}^{m\times m}\)为全1矩阵。\(\alpha\in\mathbb{R}^+\)为超参数控制分布程度。

恢复的分布接近干净数据的表示分布,因此使用这些采样数据点进行训练可以使分类器更加可靠。此外通过控制采样的数据点,可以使训练数据更平衡,有助于泛化。

个体表征校准

为了进一步增强robust,首先引入正则化方法,用L2范数限制backbone学到的表征与对比学习学到的表征:

\[\mathcal{L}_{reg}(x)=\|z-z^0\|^2=\|f(x)-z^0\|^2. \]

然后引入mixup增强交叉熵损失函数的输入输出\(\mathcal{L}_c(\boldsymbol{x}_{i,j},\tilde{y}_{i,j}).\)最后的损失函数定义为:

\[\mathcal{L}=\mathcal{L}_c+\beta\mathcal{L}_{reg}\tag{2} \]

\(\beta\)为超参数。整体伪代码如下:

由于论文没有开源,实验部分就不放了。引入MoCo的方法确实值得一试。

参考文献

  1. Zhang, Manyi, et al. "When noisy labels meet long tail dilemmas: A representation calibration method." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.
  2. Yang, Shuo, Lu Liu, and Min Xu. "Free Lunch for Few-shot Learning: Distribution Calibration." International Conference on Learning Representations. 2021.

标签:prime,精读,Calibration,boldsymbol,mu,Labels,tilde,mathcal,hat
From: https://www.cnblogs.com/zh-jp/p/18070351

相关文章

  • 论文精读:关于不确定性校准的mixup陷阱(On the Pitfall of Mixup for Uncertainty Cali
    背景Mixup(混合)定义对于一个样本\((x_i,y_i)\),将其与另一个样本\((x_j,y_j)\)混合:\[\begin{aligned}\tilde{x}_i&=\lambdax_i+(1-\lambda)x_j,\\\tilde{y}_i&=\lambday_i+(1-\lambda)y_j,\end{aligned}\tag{1}\]其中\(\lambda\)采样于Beta(α,α),α>0......
  • promethues 的label和metrics有什么区别:labels 用于数据监控指标的筛选,到底要监控哪
    在Prometheus中,Label和Metrics是两个核心概念,它们在监控和度量方面扮演不同的角色:Label(标签): labels用于数据监控指标的筛选,到底要监控哪些指标到promethuesLabels是用于标识和区分时间序列数据的键值对。每个时间序列数据都可以带有多个不同的标签,用来描述该数据的......
  • 论文精读:基于图神经网络的时间序列模型(综述)
    论文精读:基于图神经网络的时间序列模型(预测任务部分)论文链接:https://arxiv.org/abs/2307.03759一、摘要时间序列数据的复杂在于涉及时间和变量之间的复杂相互作用以及变量之间的关系。与其他深度学习方法相比,图神经网络(GraphNeuralNetworks,GNNs)可以明确地建模变量间关系(多元......
  • 李沐论文精读系列
    吴恩达的视频课是基本功,李沐的动手课是入门,论文精读系列是对行业现状的科普。已经读过的,将要读的论文链接;1,如何读论文:标题,摘要,intro介绍,method算法,exp实验,conclusion结论。快速找到合适自己的文章精读。第一遍:标题,摘要,结论,图表第二遍,完整读,看是不是真的相关,要不......
  • A Literature Survey about Why Is Prompt Tuning for Vision-Language Models Robust
    I.SummaryOverviewBackground:Avision-languagemodelcanbeadaptedtoanewclassificationtaskthroughfew-shotprompttuning.Wefindthatsuchaprompttuningprocessishighlyrobusttolabelnoises.Interest:Studyingthekeyreasonscontributing......
  • Halcon 相机外部参数标定例程一(camera_calibration_external.hdev)
    1.create_calib_data—CreateaHALCONcalibrationdatamodel  创建一个HALCON校准数据模型2.read_cam_par—Readinternalcameraparametersfromafile  从文件中读取相机内部参数  3.set_calib_data_cam_param—Settypeandinitialparametersofa......
  • LabelStudio数据标注详细方法
    文章目录情感分析任务LabelStudio使用指南1.label-studio安装2.label-studio项目创建3.情感分析任务标注3.1语句级情感分类任务3.2属性级情感分析任务3.2.1属性-情感极性-观点词抽取(1)Span类型标签(2)Relation类型标签3.2.2属性-情感极性抽取3.2.3属性-观点词抽取3.2.4属......
  • 【论文精读#1】SPGAN-DA:用于领域自适应遥感图像语义分割的语义保留生成对抗网络
    作者:YanshengLi发表年代:2023使用的方法:无监督领域自适应(UDA)、GAN、ClassMix、边界增强来源:IEEETGRS方向:语义分割期刊层次:CCFB;工程技术1区;IF8.2文献链接:https://doi.org/10.1109/TGRS.2023.3313883LiY,ShiT,ZhangY,etal.SPGAN-DA:Semantic-Pres......
  • k8s labels过滤实现
    k8sv1.19.0staging\src\k8s.io\apiserver\pkg\registry\generic\registry\store.goList方法staging\src\k8s.io\apiserver\pkg\storage\etcd3\store.goList方法staging\src\k8s.io\apiserver\pkg\storage\etcd3\store.goappendListItem函数......
  • 论文精读:STMGCN利用时空多图卷积网络进行移动边缘计算驱动船舶轨迹预测(STMGCN: Mobile
    《STMGCN:MobileEdgeComputing-EmpoweredVesselTrajectoryPredictionUsingSpatio-TemporalMultigraphConvolutionalNetwork》论文链接:https://doi.org/10.1109/TII.2022.3165886摘要利用移动边缘计算MEC范例提出基于时空多图卷积网络(STMGCN)的轨迹预测框。STMGCN由三......