首页 > 其他分享 >CoLLEGe: Concept Embedding Generation for Large Language Models

CoLLEGe: Concept Embedding Generation for Large Language Models

时间:2024-06-12 11:33:02浏览次数:23  
标签:Concept 语言 Language Generation 学习 训练 嵌入 CoLLEGe 概念学习

本文是LLM系列文章,针对《CoLLEGe: Concept Embedding Generation for Large Language Models》的翻译。

CoLLEGe:大型语言模型的概念嵌入生成

摘要

当前的语言模型无法快速学习新概念,通常需要更复杂的微调过程才能稳健地学习。在上下文中进行提示对上下文干扰并不是很有力,而且往往无法提供关于新概念的太多信息。NLP中基于全局词向量的经典小样本词学习方法不太适用于大型语言模型。在本文中,我们介绍了一种新的方法CoLLEGe(具有语言嵌入生成的概念学习)来实现小样本概念学习的现代化。CoLLEGe是一个元学习框架,能够使用少量的例句或定义为新概念生成灵活的嵌入。我们的主要元学习目标只是促进语言模型在即将到来的句子中进行下一个单词的预测,使其与语言模型预训练兼容。我们设计了一系列任务来测试在具有挑战性的现实世界场景中的新概念学习,包括新词获取、定义推理和言语推理,并证明我们的方法在没有特定任务训练的情况下在每种情况下都能成功。

1 引言

2 相关工作

3 CoLLEGe:概念学习与语言嵌入生成

4 用于训练CoLLEGe的数据集

5 实验

6 结论和讨论

在本文中,我们提出了CoLLEGe,这是一个用于预训练LLMs的新概念获取和知识增强的小样本学习框架。我们在原始预训练任务上建模我们的元学习方法,方法是直接从语言模型预训练数据集(如Pile)中采样小样本学习片段,并使用下一个单词预测(预训练目标)作为我们的主要元学习目

标签:Concept,语言,Language,Generation,学习,训练,嵌入,CoLLEGe,概念学习
From: https://blog.csdn.net/c_cpp_csharp/article/details/139574806

相关文章

  • Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning
    发表时间:2024(ICLR2024)文章要点:文章提出用预训练的视觉语言模型作为zero-shot的rewardmodel(VLM-RMs)。好处在于可以通过自然语言来给定一个具体的任务,通过VLM-RMs让强化学习基于reward学习这个任务(usingpretrainedvision-languagemodels(VLMs)aszeroshotrewardmodels......
  • BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and
    Motivation&Abs端到端大规模视觉语言预训练的开销极大。为此,本文提出了BLIP2,利用现成的冻住的imageencoder以及LLM引导视觉语言预训练。模态差距:通过两阶段训练的轻量级的QueryTransformer(Q-Former)弥补。第一阶段:从冻结的imageencoder引导VL学习;第二阶段:从冻结的LLM引导视......
  • CLIP(Contrastive Language-Image Pre-training)
    CLIP(ContrastiveLanguage-ImagePre-training)是一种多模态预训练神经网络模型,由OpenAI在2021年初发布469。CLIP的核心创新在于其能够将图像和文本映射到一个共享的向量空间中,使得模型能够理解图像和文本之间的语义关系1。CLIP模型的架构非常简洁,但在zero-shot文本-图像检索、z......
  • Dated Data: Tracing Knowledge Cutoffs in Large Language Models
    本文是LLM系列文章,针对《DatedData:TracingKnowledgeCutoffsinLargeLanguageModels》的翻译。日期数据:追踪大型语言模型中的知识截断摘要1引言2相关工作3方法4结果5为什么模型与截止日期不一致?6结论摘要已发布的大型语言模型(LLM)通常与声称的......
  • Optimizing Language Augmentation for Multilingual Large Language Models: A Case
    本文是LLM系列文章,针对《OptimizingLanguageAugmentationforMultilingualLargeLanguageModels:ACaseStudyonKorean》的翻译。优化多语言大型语言模型的语言增强——以朝鲜语为例摘要1引言2相关工作3丰富MLLM词汇4LIMA上的指令调整5定量评估6定......
  • Efficient Pruning of Large Language Model with Adaptive Estimation Fusion
    本文是LLM系列文章,针对《EfficientPruningofLargeLanguageModelwithAdaptiveEstimationFusion》的翻译。基于自适应估计融合的大型语言模型的高效修剪摘要1引言2相关工作3方法4实验5结论摘要大型语言模型(LLM)已经成为许多生成下游任务的关键,这......
  • Large Language Models are Zero-Shot Rankers for Recommender Systems论文阅读笔记
    LargeLanguageModelsareZero-ShotRankersforRecommenderSystems论文阅读笔记Abstract​ 本工作旨在调查作为推荐系统的排名模型的LLM的能力。我们首先将推荐问题形式化为一个条件排序任务,将顺序交互历史作为条件,并将其他候选生成模型检索到的项目作为候选项。为了解决LL......
  • A Novel Paradigm Boosting Translation Capabilities of Large Language Models
    本文是LLM系列文章,针对《ANovelParadigmBoostingTranslationCapabilitiesofLargeLanguageModels》的翻译。提升大型语言模型翻译能力的新范式摘要1引言2相关工作3新的训练策略4实验5结果和分析6消融研究:如果我们直接使用大量的翻译数据进行SFT会......
  • [论文速览] Design and Development of a Framework For Stroke-Based Handwritten Gu
    1.Pretitle:DesignandDevelopmentofaFrameworkForStroke-BasedHandwrittenGujaratiFontGenerationsource:arXiv2024paper:https://arxiv.org/abs/2404.03277code:None关键词:fontgeneration,handwritten,gujarati,stroke阅读理由:刷新鲜论文ing2.Mo......
  • Large Language Models as Data Augmenters for Cold-Start Item Recommendation论文
    LargeLanguageModelsasDataAugmentersforCold-StartItemRecommendation论文阅读笔记Abstract​ LLM的推理和泛化能力可以帮助我们更好地理解用户的偏好和项目特征。我们建议利用LLM作为数据增强器,来弥补在训练过程中对冷启动项目的知识差距。我们使用LLM根据用户历史行......