首页 > 其他分享 >LLM基础模型系列:Prefix-Tuning

LLM基础模型系列:Prefix-Tuning

时间:2024-07-21 11:54:38浏览次数:15  
标签:Prompt Tuning 训练 Prefix LLM 1.0 向量

------->更多内容,请移步“鲁班秘笈”!!<------

Prefix Tuning和Prompt Tuning最大的区别就是向每层的Transformer Block添加可训练的张量,而上一期的Prompt Tuning只是在输入的时候添加。

此外,通过全连接层(具有两层的迷你MLP和介于两者之间的非线性激活函数)来进行桥接。下图左侧为原始的Transformer块,而右侧为添加之后的Prefix Tuning架构。

根据最初的Prefix Tuning的论文,这种技术实现了与全微调的性能,然而只需要训练0.1%的参数(当然当时它对标的是GPT-2模型)。有一种猜测它的表现如此的好,是因为它调整了较少的参数,有助于减少较小训练上面的过渡拟合。下面第一行为全部参数微调训练,第五行为Prefix Tuning。

其实这个家族还有一个叫做P-Tuning的,它分为1.0版本和2.0版本。1.0版本和Prompt Tuning的区别在于额外Token的填充位置,1.0在输入序列的任意位置插入可训练的连续提示向量,使用一个小型的神经网络(比如LSTM)来生成这些提示向量。2,.0在模型的每一层都添加了可训练的提示向量,类似于 Prefix-tuning,它简化了提示向量的生成方式,直接对这些向量进行优化,而不使用 LSTM。

2023年5月份的Adaptive Prefix Tuning提出新的架构,它将额外的prefix加在K和V的输入前面,<一直以来,相信读者都默认QKV的尺寸是相同的,这个时候只在K和V加上,能对得上尺寸么!>这里就留个家庭作业,让读者推敲一下,为什么是可行的~

下面为它的评测指标,分别在在SuperGLUE开发集和NER 测试集上进行。SuperGLUE的指标是准确率,其他是micro-f1分数。其中FT代表最普通的微调,PT-2就是上文中P-Tuning 2.0版本,而APT就是新提出的方法。结果表明这项技术还是可取的~

标签:Prompt,Tuning,训练,Prefix,LLM,1.0,向量
From: https://blog.csdn.net/Janexjy/article/details/140585762

相关文章

  • 万字长文|LLM大模型基础入门(非常详细)从入门到精通系列之:(三)Transformer 架构
    引言在本文中,我们将介绍并解释基于Transformer的大语言模型的每个步骤。当第一次接触Transformer架构时,我被可用于理解它的大量概念和教程所淹没。一些视频或文章假设了自然语言处理(NLP)概念的先验知识,而另一些则太长且难以理解。为了掌握Transformer架构,我不得不阅......
  • fastchat vs vLLM
    vLLMhttps://github.com/vllm-project/vllmhttps://docs.vllm.ai/en/latest/推理和服务,但是更加偏向推理。 vLLMisafastandeasy-to-uselibraryforLLMinferenceandserving.vLLMisfastwith:State-of-the-artservingthroughputEfficientmanagementofat......
  • Langchain 与 LlamaIndex:LLM 应用开发框架的比较与使用建议
    Langchain和Llamaindex是两种广泛使用的主流LLM应用开发框架。两者有什么不同?我们该如何使用?以下我根据各类资料和相关文档做了初步选型。一、Langchain1.适用场景(1)需要构建灵活、可扩展的通用应用程序。(2)需要复杂的工作流程支持。(3)需要复杂的交互和上下文保留功能。(4......
  • LLM 大模型学习必知必会:大模型基础知识篇
    魔搭ModelScope开源的LLM模型魔搭ModelScope欢迎各个开源的LLM模型在社区上做开源分享。目前社区上已经承载了来自各个机构贡献的不同系列的LLM模型。并且社区的开发者也在这些模型的基础上,贡献了许多创新应用,并在ModelScope的创空间上进行分享。本专题初步梳......
  • 题解:CF1381A1 Prefix Flip (Easy Version)
    思路这道题直接用下一题的代码就行了\(C1\):注意到限制\(3n\)很大,于是看每一位是不是一样的,再操作,如样例一:转化第一位:\(01\to11\)。转化第二位:\(11\to00\to10\)。每次把当前位子提到第一位,然后翻转第一位,最后翻转回去,最多\(3n\)次,不用暴力操作直接计答案时间复杂度......
  • 通过vllm 部署qwen2 模型
    主要是一个简单测试安装vllmpip模式安装部分包比较大,注意时间,最好使用一个加速,目前阿里云的似乎有限速了,可以试试清华的https://pypi.tuna.tsinghua.edu.cn/simplepython-mvenvvenvsourcevenv/bin/acsourcevenv/bin/activatepipinstall-ih......
  • 论文《AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning》
    在大模型微调的理论中,AdaLoRA方法是一个绕不开的部分。 这篇论文主要提出了一种新的自适应预算分配方法AdaLoRA,用于提高参数高效的微调性能。AdaLoRA方法有效地解决了现有参数高效微调方法在预算分配上的不足,提高了在资源有限情况下的模型性能,为NLP领域的实际应用提供了新的......
  • 完整的多模态LLM的训练流程
    目录一、模型结构选择二、数据预处理三、模型预训练四、模型评估五、使模型和人类对齐六、LLM融合多模态6.0多模态LLM架构6.1一阶段预训练6.2二阶段微调6.2.1构造图像-指令遵循数据集6.2.2训练方式6.2.3质量评估6.3链接外部工具6.3.1构造<指令,API>数据6.3.2评估API调用......
  • LLM训练5-MoE并行
    前置知识MOE(MixerOfExpert)moe的主要原理是替换attention层后的MLP层,通过将不同类型的token按照门控单元计算出的概率分配给最大概率处理的专家网络处理,对比单一MLP更适合处理复杂多样化的数据集.主要思想和集成学习感觉很像,而且扩展性(遇到新的目标任务可以新增专家网......
  • LLM Attack | 对抗攻击
    总览:“这次我们从一道题目入手体会对抗学习以及Decoder生成过程的细节”题目链接:https://github.com/USTC-Hackergame/hackergame2023-writeups/tree/master/official/......