LLM基础模型系列：Prefix-Tuning

时间：2024-07-21 11:54:38浏览次数：19

标签：Prompt Tuning 训练 Prefix LLM 1.0 向量

------->更多内容，请移步“鲁班秘笈”！！<------

Prefix Tuning和Prompt Tuning最大的区别就是向每层的Transformer Block添加可训练的张量，而上一期的Prompt Tuning只是在输入的时候添加。

此外，通过全连接层（具有两层的迷你MLP和介于两者之间的非线性激活函数）来进行桥接。下图左侧为原始的Transformer块，而右侧为添加之后的Prefix Tuning架构。

根据最初的Prefix Tuning的论文，这种技术实现了与全微调的性能，然而只需要训练0.1%的参数（当然当时它对标的是GPT-2模型）。有一种猜测它的表现如此的好，是因为它调整了较少的参数，有助于减少较小训练上面的过渡拟合。下面第一行为全部参数微调训练，第五行为Prefix Tuning。

其实这个家族还有一个叫做P-Tuning的，它分为1.0版本和2.0版本。1.0版本和Prompt Tuning的区别在于额外Token的填充位置，1.0在输入序列的任意位置插入可训练的连续提示向量，使用一个小型的神经网络（比如LSTM）来生成这些提示向量。2,.0在模型的每一层都添加了可训练的提示向量，类似于 Prefix-tuning，它简化了提示向量的生成方式，直接对这些向量进行优化，而不使用 LSTM。

2023年5月份的Adaptive Prefix Tuning提出新的架构，它将额外的prefix加在K和V的输入前面，<一直以来，相信读者都默认QKV的尺寸是相同的，这个时候只在K和V加上，能对得上尺寸么！>这里就留个家庭作业，让读者推敲一下，为什么是可行的~

下面为它的评测指标，分别在在SuperGLUE开发集和NER 测试集上进行。SuperGLUE的指标是准确率，其他是micro-f1分数。其中FT代表最普通的微调，PT-2就是上文中P-Tuning 2.0版本，而APT就是新提出的方法。结果表明这项技术还是可取的~

标签：Prompt,Tuning,训练,Prefix,LLM,1.0,向量
From： https://blog.csdn.net/Janexjy/article/details/140585762

万字长文｜LLM大模型基础入门（非常详细）从入门到精通系列之：（三）Transformer 架构
引言在本文中，我们将介绍并解释基于Transformer的大语言模型的每个步骤。当第一次接触Transformer架构时，我被可用于理解它的大量概念和教程所淹没。一些视频或文章假设了自然语言处理（NLP）概念的先验知识，而另一些则太长且难以理解。为了掌握Transformer架构，我不得不阅......
fastchat vs vLLM
vLLMhttps://github.com/vllm-project/vllmhttps://docs.vllm.ai/en/latest/推理和服务，但是更加偏向推理。 vLLMisafastandeasy-to-uselibraryforLLMinferenceandserving.vLLMisfastwith:State-of-the-artservingthroughputEfficientmanagementofat......
Langchain 与 LlamaIndex：LLM 应用开发框架的比较与使用建议
Langchain和Llamaindex是两种广泛使用的主流LLM应用开发框架。两者有什么不同？我们该如何使用？以下我根据各类资料和相关文档做了初步选型。一、Langchain1.适用场景（1）需要构建灵活、可扩展的通用应用程序。（2）需要复杂的工作流程支持。（3）需要复杂的交互和上下文保留功能。（4......
LLM 大模型学习必知必会：大模型基础知识篇
魔搭ModelScope开源的LLM模型魔搭ModelScope欢迎各个开源的LLM模型在社区上做开源分享。目前社区上已经承载了来自各个机构贡献的不同系列的LLM模型。并且社区的开发者也在这些模型的基础上，贡献了许多创新应用，并在ModelScope的创空间上进行分享。本专题初步梳......
题解：CF1381A1 Prefix Flip (Easy Version)
思路这道题直接用下一题的代码就行了\(C1\)：注意到限制\(3n\)很大，于是看每一位是不是一样的，再操作，如样例一：转化第一位：\(01\to11\)。转化第二位：\(11\to00\to10\)。每次把当前位子提到第一位，然后翻转第一位，最后翻转回去，最多\(3n\)次，不用暴力操作直接计答案时间复杂度......
通过vllm 部署qwen2 模型
主要是一个简单测试安装vllmpip模式安装部分包比较大，注意时间,最好使用一个加速,目前阿里云的似乎有限速了，可以试试清华的https://pypi.tuna.tsinghua.edu.cn/simplepython-mvenvvenvsourcevenv/bin/acsourcevenv/bin/activatepipinstall-ih......
论文《AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning》
在大模型微调的理论中，AdaLoRA方法是一个绕不开的部分。这篇论文主要提出了一种新的自适应预算分配方法AdaLoRA，用于提高参数高效的微调性能。AdaLoRA方法有效地解决了现有参数高效微调方法在预算分配上的不足，提高了在资源有限情况下的模型性能，为NLP领域的实际应用提供了新的......
完整的多模态LLM的训练流程
目录一、模型结构选择二、数据预处理三、模型预训练四、模型评估五、使模型和人类对齐六、LLM融合多模态6.0多模态LLM架构6.1一阶段预训练6.2二阶段微调6.2.1构造图像-指令遵循数据集6.2.2训练方式6.2.3质量评估6.3链接外部工具6.3.1构造<指令,API>数据6.3.2评估API调用......
LLM训练5-MoE并行
前置知识MOE(MixerOfExpert)moe的主要原理是替换attention层后的MLP层,通过将不同类型的token按照门控单元计算出的概率分配给最大概率处理的专家网络处理,对比单一MLP更适合处理复杂多样化的数据集.主要思想和集成学习感觉很像,而且扩展性(遇到新的目标任务可以新增专家网......
LLM Attack | 对抗攻击
总览：“这次我们从一道题目入手体会对抗学习以及Decoder生成过程的细节”题目链接：https://github.com/USTC-Hackergame/hackergame2023-writeups/tree/master/official/......

LLM基础模型系列：Prefix-Tuning

相关文章

赞助商

阅读排行