首页 > 其他分享 >【LLM训练】从零训练一个大模型有哪几个核心步骤?

【LLM训练】从零训练一个大模型有哪几个核心步骤?

时间:2024-11-24 10:55:01浏览次数:5  
标签:NLP 高频 训练 宝典 面试 哪几个 LLM 要会 面题

【LLM训练】从零训练一个大模型有哪几个核心步骤?

⚠︎ 重要性:★★★


NLP Github 项目:


从零开始训练LLM需要如下4个核心步骤:

LLM的构建主要包含四个阶段:

  • 预训练
  • 有监督微调
  • 奖励建模
  • 强化学习

这四个阶段都需要不同规模数据集合以及不同类型的算法,会产出不同类型的模型,同时所需要的资源也有非常大的差别。

OpenAI 使用的大规模语言模型构建流程:

第 0 步:预训练基础大模型

目的:基于海量数据以“文字接龙”的形式构建基础语言模型。

语言建模和去噪自编码的输入输出对比:

第 1 步:有监督微调(SFT)

目的:人类引导“文字接龙”的方向。利用少量高质量数据集合,包含用户输入的提示词(Prompt)和对应的理想输出结果。

第 2 步:训练奖励模型

目的:为GPT请一个好老师。基于人类反馈训练的奖励模型可以很好的人类的偏好。从理论上来说,可以通过强化学习使用人类标注的反馈数据直接对模型进行微调。构建奖励模型(Reward Model),模拟人类的评估过程可以极大降低人类标注数据的时间和成本。奖励模型决定了智能体如何从与环境的交互中学习并优化策略,以实现预定的任务目标。

第 3 步:根据奖励模型进行强化学习

目的:AI 指导 AI,优化预训练模型。

使用奖励模型强化训练基础模型:


MLP 大模型高频面题汇总

NLP基础篇

BERT 模型面

LLMs 微调面

本文由mdnice多平台发布

标签:NLP,高频,训练,宝典,面试,哪几个,LLM,要会,面题
From: https://www.cnblogs.com/fasterai/p/18565544

相关文章

  • 【CodeForces训练记录】CodeTON Round 9 (Div. 1 + Div. 2, Rated, Prizes!)
    训练情况赛后反思发现自己越来越能猜结论了,连续两题结论猜对了,一把rating上青了。A题构造一个数组使得模数互不相同,考虑构造一个模数为\([0,1,2,3,4,5]\)的数列,所以一个全是奇数的数列\([1,3,5,7,9]\)符合条件,直接输出\(1\simn\)的奇数即可。#include<bits/stdc++.......
  • 大语言模型(LLM)的训练微调 Fine Tuning -- part3 本地调用
    以下代码示范如何调用已经微调后的大语言模型,调用本地模型先决条件已经有了本地训练好的大语言模型,如何训练可以参考我的博文《生成式AI》课程作业6大语言模型(LLM)的训练微调FineTuning--part2-CSDN博客文章浏览阅读148次,点赞2次,收藏2次。代码围绕一个主工作目录展开,......
  • 《生成式 AI》课程 作业6 大语言模型(LLM)的训练微调 Fine Tuning -- part2
    资料来自李宏毅老师《生成式AI》课程,如有侵权请通知下线IntroductiontoGenerativeAI2024Spring来源背景说明该文档主要介绍了国立台湾大学(NTU)2024年春季“生成式人工智能(GenAI)”课程的作业5(GenAIHW5)相关内容,包括任务概述、待办事项、解码参数、提交与评分、参考......
  • 高级java每日一道面试题-2024年11月21日-数据结构篇-红黑树有哪几个特征?
    如果有遗漏,评论区告诉我进行补充面试官:红黑树有哪几个特征?我回答:红黑树(Red-BlackTree)是一种自平衡二叉查找树(Self-BalancingBinarySearchTree),它在插入和删除操作后能够自动保持树的高度平衡。红黑树在许多实际应用中都非常有用,例如在Java的TreeMap和TreeSe......
  • CSP/信奥赛C++语法基础刷题训练(23):洛谷P1217:[USACO1.5] 回文质数 Prime Palindromes
    CSP/信奥赛C++语法基础刷题训练(23):洛谷P1217:[USACO1.5]回文质数PrimePalindromes题目描述因为151151151既是一个质数又是一个回文数(从左到右和从右到左是看一样的),......
  • 【Atcoder训练记录】AtCoder Beginner Contest 381
    训练情况赛后反思简单题A题做红温了,怒吃6罚时,C题双指针其实差不多想出来了,但是对于判断字符串合法其实可以只判断两个端点,不需要全部遍历,中途还想了二分做法(?),然而写到最后发现并没有二分单调性。A题记得判断字符串的长度必须是奇数,\(1\sim\frac{n+1}{2}-1\)是1,\(\frac{......
  • 【牛客训练记录】牛客小白月赛105
    训练情况赛后反思看十佳歌手去了,比较晚回来,只开了A题,B题不看数据范围直接一眼丁真直接WA了一发A题两个数相乘进行比较,再判断即可。#include<bits/stdc++.h>#defineintlonglong#defineendl'\n'usingnamespacestd;voidsolve(){inta1,b1,a2,b2;cin>>a1>>......
  • 机器学习(ML)和大型语言模型(LLMs)学习路线图
    学生应该在微积分、统计学、计量经济学、基本经济理论和任何高级语言(最好是Python)的编程经验方面有扎实的基础。微积分有助于理解优化问题,这是许多机器学习算法的核心,特别是在梯度下降和神经网络。统计对于理解概率分布、假设检验和推理至关重要,这些是大多数机器学习模型的......
  • 什么是LoRA模型?如何使用和训练LoRA模型?你想要的都在这!
    大家刚接触StableDiffusion时,会听到很多专业术语,其中LoRA模型必定是会被提及到的,那么什么是LoRA模型?它有什么作用呢?本文来为大家做一个解答~1.什么是LoRaLoRA模型全称是:Low-RankAdaptationofLargeLanguageModels,**可以理解为Stable-Diffusion中的一个插件,仅需要少......
  • LLM开发模板:小白必看
    在开发基于LLM的应用时,遵循一定的项目结构和流程可以提升开发效率和代码质量。以下是一个简单的项目,接下来我将从0开始手把手带你搭建这样一个LLM项目。importOpenAIfrom"openai";importdotenvfrom"dotenv";dotenv.config()constclient=newOpenAI({apiK......