首页 > 其他分享 >【论文笔记】Parameter-Effificient Transfer Learning for NLP

【论文笔记】Parameter-Effificient Transfer Learning for NLP

时间:2024-06-21 12:31:34浏览次数:28  
标签:NLP 模块 初始化 Transfer 适配器 任务 参数 Learning adapter

题目:Parameter-Effificient Transfer Learning for NLP
阅读

文章目录

0.摘要

克服微调训练不高效的问题,增加一些adapter模块,思想就是固定原始的网络中的参数,针对任务增加一些可以训练的参数,新任务无需重新访问以前的任务,产生高度的参数共享。与完全微调相比,仅仅增加了3.6%的参数,就接近了SOTA的结果。

1.引言

紧凑模型是那些在每个任务中使用少量附加参数来解决许多任务的模型。可以逐步训练可扩展模型来解决新任务,而不会忘记以前的任务。我们的方法在不牺牲性能的情况下产生了这样的模型。

在NLP中最常用的迁移学习技术有两种,分别是feature-based transfer 和 fine-tuning。前一种是将训练好的embedding移植到别的任务中,后一种方法是对已训练好的网络的权重进行复制,然后在下游任务进行调整。已经证明微调比基于特征的迁移效果要更好。

在这里插入图片描述

基于Adapter的调优与多任务和持续学习有关。多任务学习也会产生紧凑的模型。然而,多任务学习需要同时访问所有任务,而基于Adapter的调优则不需要。持续学习系统旨在从无穷无尽的任务中学习。这种范式具有挑战性,因为网络在重新训练后会忘记以前的任务。适配器的不同之处在于任务不交互并且共享参数被冻结。这意味着该模型使用少量特定于任务的参数对先前的任务具有完美的记忆。

2 Adapter tuning for NLP

提出了一种在多个下游任务上调整大型文本模型的策略,包含三个属性:

  1. 保持良好的性能
  2. 它允许按顺序对任务进行训练,也就是说,它不需要同时访问所有数据集
  3. 它只为每个任务添加少量额外参数

之所以微调的时候要在神经网络的最顶层添加一个新层,是因为label space和loss space对于上游任务和下游任务是不同的。

**adaper将一些新的层注入到原始的网络,原始网络的权重保持不变,而新的适配器层是随机初始化的。**在标准微调中,新的顶层和原始权重是共同训练的。相反,在 adaptertuning 中,原始网络的参数被冻结,因此可能被许多任务共享。

Adapter模块有两个关键特征:

  1. 小规模的参数
  2. 近似一致的初始化。我们还观察到,如果初始化偏离恒等函数太远,模型可能无法训练。

在这里插入图片描述

图中绿色的部分是在下游任务中进行训练的,包括layernorm,adapter模块,已经最终的分类头(图中未标出)。

在多头注意力投影层后,在FFN后添加了Adapter模块。

为了限制参数的数量,提出了bottleneck结构。adapter首先将原始的d维特征投影到一个小的维度m,应用一个非线性层,然后在投影回d维度,

对于每个增加的层,增加的参数包括bias时,参数量为2md+d+m。m远小于d

因此对每个任务限制了模型的规模。

bottleneck维度m提供了一种权衡性能与参数效率的简单方法。

标签:NLP,模块,初始化,Transfer,适配器,任务,参数,Learning,adapter
From: https://blog.csdn.net/weixin_44904205/article/details/139830009

相关文章

  • 人工智能--自然语言处理NLP概述
    欢迎来到 Papicatch的博客目录......
  • 揭秘沟通之谜:自然语言处理(NLP)的魔法世界
    自然语言处理NLP一、引言1.1定义自然语言处理(NLP)及其重要性1.2NLP在人工智能领域的地位和作用二、历史发展2.1NLP的起源和历史演变2.2关键技术突破和发展历程2.3当前NLP的发展趋势和未来展望三、NLP的主要技术和应用3.1语言模型3.2句法分析3.3语义分析3.4机器......
  • 阅读笔记:DualGAN: Unsupervised Dual Learning for Image-to-Image Translation
    以下是原论文分析,欢迎指正~DualGAN:用于图像转换的无监督双向学习作者:ZiliYi、Hao(Richard)Zhang、PingTan和MinglunGong纽芬兰纪念大学西蒙弗雷泽大学摘要  使用条件生成对抗网络(conditionalGAN)进行跨域图像转换在过去一年中取得了重大改进.根据任务的复杂程度......
  • 论文阅读:Improved Graph Contrastive Learning for Short Text Classification
    LiuY,HuangL,GiunchigliaF,etal.Improvedgraphcontrastivelearningforshorttextclassification[C]//ProceedingsoftheAAAIConferenceonArtificialIntelligence.2024,38(17):18716-18724.GIFT模型的github网址整体框架图首先,构建一个由Gw、Ge和Gp三......
  • 揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示
    揭秘In-ContextLearning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]自GPT-3首次提出了In-ContextLearning(ICL)的概念而来,ICL目前已经变成了一种经典的LLMs使用方法。ICL,即In-ContextLearning,是一种让大型语言模型(LLMs)通过少量标注样本在......
  • m基于Qlearning强化学习的小车倒立摆控制系统matlab仿真
    1.算法仿真效果matlab2022a仿真结果如下:      算法涉及理论知识概要       基于Q-learning的强化学习方法应用于小车倒立摆控制系统,是通过让智能体(即控制小车的算法)在与环境的交互过程中学习到最优的控制策略,以保持倒立摆在不稳定平衡状态下的直立。Q-l......
  • 3k star 项目 learning-cmake 点评
    3kstar项目learning-cmake点评Author:ChrisZZTime:2024.06.17目录3kstar项目learning-cmake点评概要hello-worldhello-world-clearhello-world-libcurlhello-moduleconfig-filehunter-simpleboost总结概要这次我们分析github上搜索cmake排名第三的项目https:/......
  • zero-shot-learning-definition-examples-comparison
    1Zero-shotlearning零样本学习。1.1任务定义利用训练集数据训练模型,使得模型能够对测试集的对象进行分类,但是训练集类别和测试集类别之间没有交集;期间需要借助类别的描述,来建立训练集和测试集之间的联系,从而使得模型有效。Zero-shotlearning就是希望我们的模型能够对其从......
  • 手把手教NLP小白如何用PyTorch构建和训练一个简单的情感分类神经网络
        在当今的深度学习领域,神经网络已经成为解决各种复杂问题的强大工具。本文将通过一个实际案例——对Yelp餐厅评论进行情感分类,来介绍如何使用PyTorch构建和训练一个简单的神经网络模型。我们将逐步讲解神经网络的基础概念,如激活函数、损失函数和优化器,并最终实现一......
  • Structure-Aware Transformer for Graph Representation Learning
    目录概SAT代码ChenD.,O'BrayL.andBorgwardtK.Structure-awaretransformerforgraphrepresentationlearning.ICML,2022.概Graph+Transformer+修改attention机制.SATTransformer最重要的就是attention机制:\[\text{Attn}(x_v)=\sum_{v\in......