首页 > 其他分享 >论文解读(IW-Fit)《Better Fine-Tuning via Instance Weighting for Text Classification》

论文解读(IW-Fit)《Better Fine-Tuning via Instance Weighting for Text Classification》

时间:2023-08-23 16:11:48浏览次数:45  
标签:via mathbf Tuning 实例 损失 Better right quad left

Note:[ wechat:Y466551 | 可加勿骚扰,付费咨询 ]

论文信息

论文标题:Better Fine-Tuning via Instance Weighting for Text Classification
论文作者:
论文来源:2021 ACL
论文地址:download 
论文代码:download
视屏讲解:click

1 介绍

  出发点:域适应一类方法是对预先训练好的模型参数进行微调,以往的微调工作主要集中在预训练阶段,研究如何预训练一组最能帮助目标任务的参数;

  方法简介:本文提出了一种基于实例加权的微调(IW-Fit)方法,该方法修正了微调阶段,以提高目标域的最终性能。IW-Fit在每个微调阶段动态调整实例权重,以实现两个目标: 1)有效地识别和学习目标域的具体知识;2)很好地保持源域和目标域之间的共享知识。在IW-Fit中使用的设计的实例加权度量是与模型无关的,这对于一般的基于DNN的分类器很容易实现。实验结果表明,IW-Fit可以持续提高目标域的分类精度。

  贡献:

    • 提出了基于实例加权的微调(IWFit),这是一种应用于给定一组预先训练好的参数的微调阶段的方法;
    • 设计了两个模型不可知的指标来计算IW-Fit中使用的权重及其混合变量的权重;
    • 进行了大量的实验来验证IW-Fit可以在几个基线上持续地提高目标域的分类精度;

2 方法

  IW-Fit 中设计的加权度量应该实现两个目标:

    1. 有效地识别和学习目标领域的特定知识;
    2. 很好地保持源域和目标域之间的共享知识;

  分类损失:

    $f\left(\mathbf{y}, g_{\boldsymbol{\theta}}(\mathbf{x})\right)=-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})   \quad\quad(1)$

  在早期的微调时期,参数接近于从尚未适应目标域的预训练分类器中获得的参数。一个实例有着较大的预测损失意味着预先训练好的分类器不能很好地拟合它,并且它可能包含更多的目标知识。因此,如果我们为这些实例分配了较大的权重,那么该模型将更加重视学习目标领域上的特定知识。这促使我们使用预测损失作为我们的第一个指标。

  经过多次微调后,分类器可能会捕获更多的目标特定知识,而一些目标实例往往有很小的预测损失。为了使算法能够一致地区分这些实例,提出了另一个度量标准——历史预测损失的方差。对于具有特定目标知识的实例,它通常从很大的预测损失开始。如果它现在是一个很小的梯度,仍然可以通过计算其沿着微调时期的历史预测损失的方差来识别它。

  另一方面,对于类似于源域的实例,它通常从早期时期的一个很小的预测损失开始。如果这样的实例在后期的微调时期受到巨大的损失,那么我们的微调分类器很可能会被具有目标特定知识的实例过度拟合。在这种情况下,这些实例会产生较大的预测损失以及较大的预测损失方差。给它们分配大的权重可以平衡我们的模型来实现第二个目标。

预测损失

  $\text{Eq.1}$ 中的预测损失可作为分配实例权重的第一个度量值:

    $w=\frac{1}{\tau}\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})+\epsilon\right)  \quad\quad(2)$

  其中,$\epsilon$ 是一个平滑常数,用于防止小损失的实例的权重为零,$\tau$ 是一个归一化常数,使小批量的权重的平均值等于 $1$ ;

历史预测损失方差

  在 epoch 等于 $t$ 阶段,假设 $h^{t-1}= \left[f^{1}, \ldots, f^{t-1}\right]$ 是包含预测损失 $f=-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x}) $ 的历史项的向量;

  第二个度量可以根据预测损失的方差来计算:

    $w=\frac{1}{\tau}\left(s t d\left(h^{t-1}\right)+\epsilon\right)  \quad\quad(3)$

  其中,$\operatorname{std}\left(h^{t-1}\right)$ 是估计的标准推导加上它在 $h^{t-1}$ 中的置信区间:

    $\operatorname{std}\left(h^{t-1}\right)=\sqrt{\varsigma\left(h^{t-1}\right)+\frac{\varsigma^{2}\left(h^{t-1}\right)}{\left|h^{t-1}\right|-1}}  \quad\quad(4)$

  其中,$\varsigma^{2}\left(h^{t-1}\right)$ 为预测损失的方差,$\left|h^{t-1}\right|$ 为存储的预测损失数;

加权度量的混合变量

  如上所述,预测损失在早期微调时期更有效,历史预测损失的方差应在一些后期使用。

  因此,进一步提出了两个混合变体来结合这两个加权指标:

硬混合

  前 $\eta$ 个 epoch 采用预测损失,然后切换到使用预测损失的方差:

    $w=\frac{1}{\tau}\left[\mathbf{I}_{t \leq \eta} \cdot\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})\right)+\mathbf{I}_{t>\eta} \cdot \operatorname{std}\left(h^{t-1}\right)+\epsilon\right]  \quad\quad(5)$

  其中,当 $A$ 为真时,指标函数 $\mathbf{I}_{A}$ 等于 $1$,否则为 $0$;

软混合

  在硬混合中,超参数 $\eta$ 需要仔细调整,并且这两个指标在每个微调时期都是互斥的。为了探索这两个指标的一个潜在的更灵活的组合,建议使用一种软混合变体作为:

    $w=\frac{1}{\tau}\left[\beta \cdot\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})\right)+(1-\beta) \cdot \operatorname{std}\left(h^{t-1}\right)+\epsilon\right]  \quad\quad(6)$

  其中,$\beta$ 是一个在微调时期从 $1$ 线性下降到 $0$ 的平衡比。实验结果表明,在所有比较的微调方法中,采用软混合加权度量的信息量拟合方法通常表现最好。

3 实验

  略

标签:via,mathbf,Tuning,实例,损失,Better,right,quad,left
From: https://www.cnblogs.com/BlairGrowing/p/17650517.html

相关文章

  • 优化:微调Finetuning
    模型的微调 使用别人训练好的网络模型进行训练,前提是必须和别人用同一个网络,因为参数是根据网络而来的。当然最后一层是可以修改的,因为我们的数据可能并没有1000类,而只有几类。把最后一层的输出类别和层的名称改一下就可以了。用别人的参数、修改后的网络和自己的数据进行......
  • 一个轻量级的脚本规则引擎工具 Aviator Script
    告别ifelse!试试这款轻量级流程引擎吧,跟SpringBoot绝配!(qq.com) println("HelloAviatorScript!");a=b+c;println("a="+a);执行:packagecom.yuyi.advanced.pis;importcom.googlecode.aviator.AviatorEvaluator;importcom.googlecode.aviator.Expression......
  • 用断点调试阅读peft源码:prefix tuning
    今天我们阅读peft源码,主要是为了弄清楚prefixtuning的工作原理和代码细节。模型定义部分peft_config=PrefixTuningConfig(task_type=TaskType.SEQ_2_SEQ_LM,inference_mode=False,num_virtual_tokens=20)#下载预训练模型T5,模型结构可以在debugconsole中输入model得到m......
  • 2.解释一下什么是trivial destructor
    2.解释一下什么是trivialdestructor什么是trivialdestructor和non-trivialdestructor如果用户不定义析构函数,而是用系统自带的,则说明,析构函数基本没有什么用(但默认会被调用)我们称之为trivialdestructor。反之,如果特定定义了析构函数,则说明需要在释放空间之前做一些事情,则......
  • A Novel Noise Injection-based Training Scheme for Better Model Robustness
    郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!https://arxiv.org/abs/2302.10802......
  • 《Decision Transformer: Reinforcement Learning via Sequence Modeling》论文学习
    一、Introduction先前的研究工作表明,Transformer可以对处于高维分布的语义概念进行大规模建模抽象,比较典型地体现如:基于自然语言的零样本泛化(zero-shotgeneralization)分布外图像生成(out-of-distributionimagegeneration)鉴于此类模型在多个领域的成功应用,我们希望研究Tran......
  • [SpringBoot] Not registered via @EnableConfigurationPropertise or marked as Spri
    问题描述在Springboot进行参数绑定时,出现解决添加以下依赖<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-configuration-processor</artifactId> <optional>true</optional> </depende......
  • Quantitative Approach of Management Science:(better decision making by using qua
    Whichistheuseofquantitativetechniquestoimprovemanagerialdecisionmaking.Alsoknownasmanagementscience.Bettermanagerialdecisionmakingbyusingquantitativetechniques,suchas:Thequantitativeapproachevolvedfrommathematicalandstati......
  • 机器翻译 | Improving Neural Machine Translation Robustness via Data Augmentation
    论文地址:https://arxiv.org/abs/1910.03009动机神经机器翻译(NMT)模型在翻译干净文本时已被证明是强大的,但它们对输入中的噪声非常敏感。改进NMT模型的鲁棒性可以看作是对噪声的“域”适应的一种形式。最先进的方法严重依赖于大量的反向翻译数据。最近创建的基于噪声文本的机......
  • 布线规则-via、阻抗、通流
    20200120 AddXXX的PCBLayout布线评审1、初级的网口走线以及GND和初级抽头之间有间距要求,一般至少20mil;(待确认)2、初级抽头的泄放路径先经过RC电路,再过压敏;(待确认)压敏和75ohmRC位置调整,RC调整到靠近抽头。3、层叠考虑时,在考虑高速走线的情况下,适当关注小电压大电流(一般是CO......