本文是LLM系列文章,针对《CoLLEGe: Concept Embedding Generation for Large Language Models》的翻译。
CoLLEGe:大型语言模型的概念嵌入生成
摘要
当前的语言模型无法快速学习新概念,通常需要更复杂的微调过程才能稳健地学习。在上下文中进行提示对上下文干扰并不是很有力,而且往往无法提供关于新概念的太多信息。NLP中基于全局词向量的经典小样本词学习方法不太适用于大型语言模型。在本文中,我们介绍了一种新的方法CoLLEGe(具有语言嵌入生成的概念学习)来实现小样本概念学习的现代化。CoLLEGe是一个元学习框架,能够使用少量的例句或定义为新概念生成灵活的嵌入。我们的主要元学习目标只是促进语言模型在即将到来的句子中进行下一个单词的预测,使其与语言模型预训练兼容。我们设计了一系列任务来测试在具有挑战性的现实世界场景中的新概念学习,包括新词获取、定义推理和言语推理,并证明我们的方法在没有特定任务训练的情况下在每种情况下都能成功。
1 引言
2 相关工作
3 CoLLEGe:概念学习与语言嵌入生成
4 用于训练CoLLEGe的数据集
5 实验
6 结论和讨论
在本文中,我们提出了CoLLEGe,这是一个用于预训练LLMs的新概念获取和知识增强的小样本学习框架。我们在原始预训练任务上建模我们的元学习方法,方法是直接从语言模型预训练数据集(如Pile)中采样小样本学习片段,并使用下一个单词预测(预训练目标)作为我们的主要元学习目
标签:Concept,语言,Language,Generation,学习,训练,嵌入,CoLLEGe,概念学习 From: https://blog.csdn.net/c_cpp_csharp/article/details/139574806