首页 > 其他分享 >大模型微调方法和技术路线

大模型微调方法和技术路线

时间:2024-09-05 15:22:26浏览次数:6  
标签:学习 Tuning 模型 微调 路线 参数 Fine

带你快速了解大模型微调原理

目前传统的 Fine-Tuning 有两个痛点问题:

  • 降低语义差异(Bridge the gap between Pre-training and Fine-tuning) :预训练任务主要以 Masked Language Modeling(MLM)为主,而下游任务(DownStream Task)则重新引入新的训练参数,因此两个阶段的目标通常有较大差异。因此需要解决如何缩小Pre-training和Fine-tuning两个阶段目标差距过大的问题;
  • 避免过拟合(Overfitting of the head) :由于在 Fine-Tuning 阶段需要新引入额外的参数以适配相应的任务需要,因此在样本数量有限的情况容易发生过拟合,降低了模型的泛化能力。因此需要面对预训练语言模型的过拟合问题。

1 全量微调

全量微调(Full Fine Tuning, FFT): 对全量的参数进行训练,用特定领域的数据对大模型的训练效果会很好。

但全量微调 FFT 存在下面两个问题:

  • 训练的成本会比较高,因为微调的参数量跟预训练的是一样多的;
  • 灾难性遗忘(Catastrophic Forgetting),用特定训练数据去微调可能会把这个领域的表现变好,但也可能会把原来表现好的领域的能力变差。

2 参数高效微调

为了解决全量微调 FFT 存在的问题,提出了参数高效微调:

参数高效微调(Parameter-Efficient Fine Tuning, PEFT) 只对有效部分的参数进行训练,是目前比较主流的微调方案,其中比较流行的有 Prompt TuningPrefix Tuning、Freeze、**LoRA 和 QLoRA,**主推 QLoRA(Efficient Finetuning of Quantized LLMs) 微调,支持绝大部分主流的开源大模型。

2.1 Prompt Tuning

Prompt Tuning 的出发点是基座模型(Foundation Model)的参数不变,为每个特定任务,训练一个少量参数的小模型,在具体执行特定任务的时候按需调用。Prompt Tuning 是发生在 Embedding 这个环节的,基本原理是在输入序列前面,增加一些特定长度的特殊Token,以增大生成期望序列的概率。

2.2 Prefix Tuning

Prefix Tuning 也保证了基座模型本身是没有变的,是在 Transformer 的 Encoder 和 Decoder 的网络中都加了一些特定长度的特殊 Token。

2.3 Freeze

Freeze 方法,即参数冻结,对原始模型部分参数进行冻结操作,仅训练部分参数,以达到在单卡或不进行 TP 或 PP 操作时,就可以对大模型进行训练(在语言模型模型微调中,Freeze 微调方法仅微调 Transformer 后几层的全连接层参数,而冻结其它所有参数)。

2.4 LoRA

LoRA:Low-Rank Adaptation of Large Language Models 假设现在看到的这些大语言模型都是被过度参数化的。而过度参数化的大模型背后,都有一个低维的本质模型(即大模型参数虽多,但并不是所有的参数都是发挥作用的;大模型中有一部分参数,是非常重要的,是影响大模型生成结果的关键参数,这部分关键参数就是上面提到的低维的本质模型)。(有点类似Resnet的结构)

2.5 QLoRA

LoRA 效果已经非常好了,可以媲美全量微调的效果了,那为什么还要有个 QLoRA 呢?

QLoRA:Efficient Finetuning of Quantized Large Language Models,比 LoRA 多了一步量化(是一种在保证模型效果基本不降低的前提下,通过降低参数的精度,来减少模型对于计算资源的需求的方法),量化的核心目标是降低训练成本,特别是降后期的推理成本。

3 大模型微调的技术路线

  • 监督式微调 SFT(Supervised Fine Tuning) 主要是通过人工标注的数据,用传统机器学习中监督学习的方法,对大模型进行微调;
  • 基于人类反馈的强化学习微调 RLHF(Reinforcement Learning with Human Feedback) ,主要是把人类的反馈,通过强化学习的方式,引入到对大模型的微调中去,让大模型生成的结果,更加符合人类的一些期望;
  • 基于 AI 反馈的强化学习微调 RLAIF(Reinforcement Learning with AI Feedback) ,原理大致跟 RLHF 类似,但是反馈的来源是 AI。主要是想解决反馈系统的效率问题,因为收集人类反馈,相对来说成本会比较高、效率比较低。

不同的分类角度,只是侧重点不一样,对同一个大模型的微调,也不局限于某一个路线,可以多个方案一起。最终目的都是能够在可控成本的前提下,尽可能地提升大模型在特定领域的能力。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

标签:学习,Tuning,模型,微调,路线,参数,Fine
From: https://blog.csdn.net/aolan123/article/details/141932187

相关文章

  • 不用再找了,这是大模型实践最全的总结
    随着ChatGPT的迅速出圈,加速了大模型时代的变革。对于以Transformer、MOE结构为代表的大模型来说,传统的单机单卡训练模式肯定不能满足上千(万)亿级参数的模型训练,这时候我们就需要解决内存墙和通信墙等一系列问题,在单机多卡或者多机多卡进行模型训练。最近,我也在探索大模型相......
  • ​浅析多模态大模型技术路线梳理
    前段时间ChatGPT进行了一轮重大更新:多模态上线,能说话,会看图!微软发了一篇长达166页的GPT-4V测评论文,一时间又带起了一阵多模态的热议,随后像是LLaVA-1.5、CogVLM、MiniGPT-5等研究工作紧随其后,到处刷屏。大模型的多模态能力到底是怎么来的?今天来分享一下多模态相关的......
  • linux 部署Ollama本地大模型
    简介llama是一个大模型的管理框架,其作用类似于Docker:如果将每一个标准化的大模型视为“镜像”,那么Ollama就能够通过一行命令快速拉取并运行这些大模型。然而,Ollama本身是基于命令行的服务,所以为了方便我们对大模型进行微调和使用,还需要引入maxkb。maxkb提供了一个......
  • Meta:大语言模型可以通过自我批判取得大幅提升!
    夕小瑶科技说原创作者| 谢年年论文的审稿模式想必大家都不会陌生,一篇论文除了分配多个评审,最后还将由PC综合评估各位审稿人的reviews撰写meta-review。最近,来自Meta的研究团队将这一模式引进到大模型的对齐训练中。模型同时扮演执行者(actor)、评判者(judge)和元评判者......
  • AI大模型的硬件协同优化
    人工智能大模型已经成为当今科技领域的关键驱动力,它们不仅在语言理解、图像识别等任务中展现了非凡的能力,还在各个领域推动了科学研究和工业应用的进步。然而,这些大模型的训练和推理需求极高的计算资源,这促使硬件设计和优化成为实现其高效运行的关键因素之一。1.背景介绍随着深度......
  • 探索魔乐社区:GLM-4V-9B模型微调之旅
    人工智能的浪潮中,魔乐社区以其丰富的资源和开放的环境,逐渐成为了开发者们的新宠。今天,让我们一起走进魔乐社区,通过GLM-4V-9B模型微调的最佳实践,体验这个平台的独特魅力。多模态的新星:GLM-4V-9BGLM-4V-9B是智谱AI推出的最新一代预训练模型GLM-4系列中的开源多模态版本。。它不仅......
  • 大模型备案重难点最详细说明【评估测试题+附件】
    2024年3月1日,我国通过了《生成式人工智能服务安全基本要求》(以下简称《AIGC安全要求》),这是目前我国第一部有关AIGC服务安全性方面的技术性指导文件,对语料安全、模型安全、安全措施、词库/题库要求、安全评估等方面提出了具体规范和要求。(一)适用主体《AIGC安全要求》的适用主......
  • 一篇文章带你了解大语言模型的前世今生
    大规模语言模型(LargeLanguageModels,LLM),也称大规模语言模型或大型语言模型,是一种由包含数百亿以上参数的深度神经网络构建的语言模型,使用自监督学习方法通过大量无标注文本进行训练。自2018年以来,Google、OpenAI、Meta、百度、华为等公司和研究机构都相继发布了包括BERT......
  • ai人工智能大模型开发人工智能知识库开发:AI智能大模型的优势与挑战
    AI智能大模型是人工智能领域的一项重要技术,它的出现极大地推动了人工智能技术的发展。AI智能大模型具有很多优势,但同时也面着很多挑战。一、优势1.更准确的预测AI智能大模型可以通过分析海量数据,找到其中的规律和趋势,从而更准确地预测未来发展趋势。这对于金融、医疗、气象......
  • 旅游线路规划和路线下载
    新疆旅游,规划一个北疆旅游线路安排如下:第一天:从乌鲁木齐到魔鬼城,晚上住宿克拉玛依市乌尔禾区;第二天:从克拉玛依市乌尔木区到五彩滩,晚上住宿贾登峪;第三天:从贾登峪到禾木风景区,晚上住宿贾登峪;第四天:从贾登峪到喀纳斯湖风景区,晚上住宿贾登峪;第五天:从贾登峪返回乌鲁木齐;第六天......