首页 > 其他分享 >Understanding and Mitigating the Label Noise in Pre-training on Downstream Tasks

Understanding and Mitigating the Label Noise in Pre-training on Downstream Tasks

时间:2024-05-30 16:44:15浏览次数:21  
标签:Pre training Noise mathbf text sum frac mathcal sigma

目录

Chen H., Wang J., Shah A., Tao R., Wei H., Xie X., Sugiyama M. and Raj B. Understanding and mitigating the label noise in pre-training on downstream tasks.

本文讨论如果预训练模型在训练的时候存在噪声, 会对后续的任务有什么影响, 并提出了一些解决方案.

符号说明

  • \(\mathbf{x} \sim \mathcal{X}\), inputs;
  • \(y \sim \mathcal{Y}\), labels;
  • \(\mathcal{D} = \{(\mathbf{x}_i, y_i)\}_{i \in [N]}\), clean dataset, \([N] := \{1, \ldots, N\}\);
  • \(\hat{\mathcal{D}} = \{(\mathbf{x}_i, \hat{y}_i)\}_{i \in [N]}\), noisy pre-training dataset.
  • \(\mathbf{F} \in \mathbb{R}^{M \times D}\), pre-trained features;

经验性的结果

  • 如上图所示, 当给数据集添加不同比例的噪声, ID (In-domain) 的情况会比 OOD (Out-of-domain) 的情况好很多.

  • 让我们额外定义一些指标, 它们会告诉我们噪声的一些其它影响.

  • Singular Value Entropy (SVE):

    \[\text{SVE} = -\sum_{i=1}^D \frac{\sigma_i}{ \sum_{j=1}^D \sigma_j } \log \frac{ \sigma_i }{ \sum_{j=1}^D \sigma_j }, \]

    奇异值谱的熵反映了预训练得到的特征蕴含的结构, 越大说明其中的结构越丰富.

  • Largest Singular Value Ratio (LSVR):

    \[\text{LSVR} = -\log \frac{ \sigma_1 }{ \sum_{i=1}^D \sigma_i }. \]

    LSVR 反映的是最大奇异值的情况.

  • 如上图所示 (没看懂), 结论如下:
    1. 稍稍增加一定比例的噪声数据反而有利特征的泛化性;
    2. 当继续增加噪声数据的比例的时候, SVE 和 LSVR 继续增加 (即 pre-trained faetures 具有越来越多的结构性), 这个时候就没法再继续提高泛化性了.

Noisy Model Learning

  • 于是作者提出了一宗 noisy model learning 的方法, 它实际上一个训练的时候的正则化项:

    \[\mathcal{L}_{\text{NMTune}} = \mathcal{L}_{\text{MSE}} + \mathcal{L}_{\text{COV}} + \mathcal{L}_{\text{SVD}}. \]

    其中

    \[\mathcal{L}_{\text{MSE}} = \bigg\| \frac{\mathbf{F}}{\|\mathbf{F}\|_2} - \frac{\mathbf{Z}}{\|\mathbf{Z}\|_2} \bigg\|_2^2. \]

    \[\mathcal{L}_{\text{COV}} = \frac{1}{D} \sum_{i\not = j}[ C[\mathbf{Z}] ]_{i, j}^2, \quad C(Z) = \frac{1}{M - 1} \sum_{i=1}^M (z_i - \bar{z}) (z_i - \bar{z})^T, \bar{z} = \frac{1}{M} \sum_{i=1}^M z_i. \]

    \[\mathcal{L}_{\text{SVD}} = -\frac{\sigma_1}{\sum_{j=1}^D \sigma_j}. \]

    注意, \(\mathbf{Z} = \text{MLP}(\mathbf{F})\).

代码

[official-code]

标签:Pre,training,Noise,mathbf,text,sum,frac,mathcal,sigma
From: https://www.cnblogs.com/MTandHJ/p/18222671

相关文章

  • 从零开始创建一个nodejs+ts+express+热加载的简易项目
    为了搭建一个nodejs+express+ts+热加载的一个简易项目,需要配置一些基础的文件来确保ts代码能被编译和正确的运行。下面是一个详细的配置例子,以供参考。1.安装Node.js:确保系统上已经安装了Node.js。这一步省略,安装也很简单。2.初始化项目创建一个新的项目目录并......
  • 基于node+express的文学交流平台的设计与实论文
    摘要本文学交流网站拥有丰富的文学作品资源,涵盖小说、散文、诗歌、戏剧等各类文学作品,用户可以在平台上轻松浏览、阅读、分享和评论作品,满足对文学作品的热爱与追求。除了作品展示,文学交流平台网站还注重用户之间的互动与交流。它设有社区交流功能,用户可以在平台上发表......
  • [Paper Reading] FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Cha
    FlashOcc:FastandMemory-EfficientOccupancyPredictionviaChannel-to-HeightPluginlink时间:23.11机构:houmo.ai后摩智能TL;DR当时比较流行的OCC方案内存与计算复杂度较高,本文提出一种称为FlashOcc的方法,仅使用2D卷积将特征由二维空间lift到3D空间。MethodImageEn......
  • 【Spring Security】Error:A granted authority textual representation is required
     Security出错了! 分析:Debug跑后 排查是Security中的UserDetails.getAuthorities()在创建SimpleGrantedAuthorityauthority时,所传递的授权信息是空的,导致SimpleGrantedAuthorityauthority出现异常;报出Agrantedauthoritytextualrepresentationisreq......
  • 界面控件DevExpress WinForms的流程图组件 - 可完美复制Visio功能(一)
    DevExpressWinForms的Diagram(流程图)组件允许您复制MicrosoftVisio中的许多功能,并能在下一个WindowsForms项目中引入信息丰富的图表、流程图和组织图。P.S:DevExpressWinForms拥有180+组件和UI库,能为WindowsForms平台创建具有影响力的业务解决方案。DevExpressWinForms能完美......
  • Learning Model Predictive Control for Iterative Tasks. A Data-Driven Control Fra
    LearningModelPredictiveControlforIterativeTasks.AData-DrivenControlFramework一句话MPC:在每个采用点处,根据被控对象的状态和预测模型,预测系统在未来一段时间内的状态,依据某一性能指标(成本函数)来求解最优的一组控制序列,并将这组控制序列的第一个控制作用作为输出......
  • hadoop学习之MapReduce案例:输出每个班级中的成绩前三名的学生
    hadoop学习之MapReduce案例:输出每个班级中的成绩前三名的学生所要处理的数据案例:1500100001施笑槐,22,女,文科六班,4061500100002吕金鹏,24,男,文科六班,4401500100003单乐蕊,22,女,理科六班,3591500100004葛德曜,24,男,理科三班,4211500100005宣谷芹,22,女,理科......
  • Towards Universal Sequence Representation Learning for Recommender Systems
    目录概符号说明UniSRec统一的文本表示统一的序列表示Parameter-EfficientFine-tuning代码HouY.,MuS.,ZhaoW.X.,LiY.,DingB.andWenJ.TowardsUniversalSequenceRepresentationLearningforRecommenderSystems.KDD,2022.概本文提出了一个用text替代ID......
  • 解决 IIS Express 启动错误:“拒绝访问”问题
    报错StartingIISExpress...stderr:FailedtoregisterURL"http://localhost:8378/"forsite"app-3344e220-8b03-465c-8df1-3c41981352a1"application"/".Errordescription:拒绝访问。(0x80070005)Unabletostartiisexpress.拒绝......
  • PreviewMouseLeftButtonDown与MouseLeftButtonDown的撕烤
    在WPF(WindowsPresentationFoundation)中,PreviewMouseLeftButtonDown和MouseLeftButtonDown是两个常用的鼠标事件,它们在事件路由策略和处理时机上有所不同。了解这两个事件的区别以及如何在实际应用中使用它们,可以帮助开发者更好地处理用户交互。事件的基本区别PreviewMouseL......