微调

微调的目的有几个：

1. 和人类对齐，减少一些hullucination和toxic content；

2. 引入domain knowledge；

3. 做一些prompt engineering低效的事情，比如不用提供大量的样本。但是也有可能因此而产生灾难性遗忘。同时需要对样本量和质量进行把控。

SFT (supervised fine-tuning)

实际上就是用人工选择出来的一些pair来给到LLM，防止toxic的答案。和RLHF (RF with Human Feedback) 很像。[1] 中声称，用1000个样本做finetune就能有很不错的效果。

RLHF (RF with Human Feedback) [5]

分成两部

1. 采样出一些prompt和回答，然后让人类对这些回答排名，从而我们获取了人类对于这些回答的偏好。用一个reward model来学习这种偏好，后面就可以模仿人类，对于任意模型打分。

2. 获取reward model后，fix住，然后去训练policy model，也就是目标LLM，用PPO的方式，利用reward来更新policy。

RLAIF (RF with AI Feedback)

与上面不一样的，就是用AI来对回答进行排名，然后去训练reward model。其他都一样

PEFT (Parameter Efficient Finetuning)

上面三种(SFT, RLHF, RLAIF)描述的是数据流或者说数据的来源，而PEFT描述的是训练方法。[4]

Prompt Tuning

一些背景：表现良好的prompt需要很强的设计经验，在对准确度要求高的场合（如作为pipeline），通过人类指定的prompt (也被称为hard prompt) 可能会落入suboptimal [2] . 而soft-prompt则是可调的prefix token，加到prompt前面。通过改变输入格式，来改变任务的domain。前提是默认大模型已经train得很好了，有足够的能力进行知识的迁移。

Prefix tuning [3]

建一个小模型，专门用来产生一些token，注入到原有的prompt的最前面，使得模型产生的结果符合期望。其实可以类比于SQL注入，或者某种攻击方法，注入可以让模型产生有毒的，也可以产生更符合目标的回答。实际上就是用把LORA模型的参数转移到prompt里面，然后用这部分参数承担了context switch的工作。

[1] LIMA: Less Is More for Alignment

[2] https://zhuanlan.zhihu.com/p/524383554

[3] The Power of Scale for Parameter-Efficient Prompt Tuning

[4] https://zhuanlan.zhihu.com/p/650287173

[5] https://zhuanlan.zhihu.com/p/624589622

标签：prompt,finetune,RF,LLM,model,reward,模型
From： https://www.cnblogs.com/kunrenzhilu/p/18091328

【Coursera GenAI with LLM】 Week 3 LLM-powered applications Class Notes
ModeloptimizationstoimproveapplicationperformanceDistillation:usesalargermodel,theteachermodel,totrainasmallermodel,thestudentmodel,wefreezeteacher'sweightsandgeneratecompletions,alsogeneratestudentmodel'scompl......
LLM-通义千问：新能源参考书
问题一：新能源入门参考书对于新能源技术的学习，以下是一些推荐的入门参考书籍：《新能源概论》：作者孙逢春，该书全面介绍了太阳能、风能、生物质能、海洋能等各种新能源的基本原理、利用技术及其发展趋势，适合初学者了解新能源领域的全貌。《新能源科学与工程导论》：作者张华，该书......
LLM进阶——预训练语言模型
文章目录一、概念二、GPT1、概念2、自回归3、zero-shot三、bert1、概念2、maskedLM一、概念最早的预训练语言模型(plms)是word2vec，现在的模型(gpt&bert)都是基于transformer以下是一些常见的预训练语言模型分类：基于Transformer的模型：BERT（BidirectionalEncoder......
贝尔曼方程【Bellman Equation】
强化学习笔记主要基于b站西湖大学赵世钰老师的【强化学习的数学原理】课程，个人觉得赵老师的课件深入浅出，很适合入门.第一章强化学习基本概念第二章贝尔曼方程文章目录强化学习笔记一、状态值函数贝尔曼方程二、贝尔曼方程的向量形式三、动作值函数参考资料第......
大型LLM模型语言全面解读-开篇
目录由于1万字的要求过于庞大，我将先给出论文的大纲以及部分内容的详细撰写，以确保内容的质量和完整性。如果您需要更完整的内容，可以在之后继续输入。大型LLM模型语言全面解读**摘要：**本文旨在对大型语言模型（LargeLanguageModel，简称LLM）进行全面深入的解读，包括其定义、底层原......
全面解读大模型（llm）
全面解读大型语言模型（LLM，LargeLanguageModels）：定义与原理：大型语言模型是一种人工智能模型，基于深度学习技术，能够理解和生成自然语言。它们通过分析大量的文本数据来学习语言的统计规律和模式，从而能够对新的文本输入做出预测和生成回应。这些模型通常是基于神经网络，特......
大模型推理框架 vLLM
vLLM是一个开源的大模型推理加速框架，通过PagedAttention高效地管理attention中缓存的张量，实现了比HuggingFaceTransformers高14-24倍的吞吐量，就像在操作系统中管理CPU虚拟内存一样NVIDIAFasterTransformer(FT)是一个用于实现基于Transformer的神经网络推理的加速引擎。它包......
LLMR：使用大型语言模型实时提示交互式世界
混合现实的大型语言模型（LLMR），这是一个用于LLMs实时创建和修改交互式混合现实体验的框架。LLMR利用新颖的策略来解决理想的训练数据稀缺的困难情况，或者设计目标需要综合内部动态、直观分析或高级交互性的情况。我们的框架依赖于文本交互和Unity游戏引擎。通过结合场景理解、......
LLM如何处理长上下文：Lost in the middle
论文地址：LostintheMiddle:HowLanguageModelsUseLongContexts论文总结：写prompt的时候，需要注意内容的顺序，把重要的信息放在最前面或者最后面。大型语言模型大有用处，在设计prompt方面，人们通常建议为语言模型提供详尽的任务描述和背景信息。近期的一些语言模型有能力......
LLM+Embedding构建问答系统的局限性及优化方案
LangChain +LLM方案的局限性：LLM意图识别准确性较低，交互链路长导致时间开销大；Embedding不适合多词条聚合匹配等。背景在探索如何利用大型语言模型（LLM）构建知识问答系统的过程中，我们确定了两个核心步骤：将用户提出的问题和知识库中的信息转换成嵌入向量（Embeddings），然后利......

LLM finetune

微调

SFT (supervised fine-tuning)

RLHF (RF with Human Feedback) [5]

RLAIF (RF with AI Feedback)

PEFT (Parameter Efficient Finetuning)

Prompt Tuning

相关文章

赞助商

阅读排行