一文了解大模型的三种类型

时间：2024-07-18 11:25:39浏览次数：17

大模型的发展至今，吸引了众多初学者的加入。其中，有小伙伴提出疑问：“有些大模型会同时开源三种模型，这些不同类型模型的区别是什么呢？”，那么本文将简要介绍LLM中的三种重要模型：基座模型（base）、聊天模型（chat）和指令模型（instruct）。

一、base模型

base模型，也被称为基基座模型或平台模型，是通过在大量无标注数据上进行预训练，从而学习到广泛语言特征的模型。这些模型拥有庞大的参数规模，能够在多种任务上展现出卓越的性能，无需从零开始训练。

特点

大规模预训练：利用海量数据集，学习语言结构和模式。
泛化能力强：适用于多种NLP任务，如问答、文本分类、翻译等。
可微调性：通过少量数据即可针对特定任务进行调整。

示例

GPT-3：生成式预训练变换器，擅长生成连续文本。
GLM：具备多模态能力，能处理图像和文本数据。

白话解释

一名大学生在校期间阅读了图书馆中的所有的书，他脑子里有很多的知识，但是他只读书，是不能通过考研的。

二、chat模型

Chat模型，即对话模型，专为处理人机交互而设计。这类模型能够理解上下文，维持对话历史，生成连贯且情境相关的响应。

特点

上下文感知：理解对话历史，保持连贯性。
互动性：能够进行多轮对话，解答复杂问题。
创意生成：创作故事、诗歌或提供个性化建议。

示例

ChatGPT：由OpenAI开发，基于GPT架构的聊天机器人，能够进行高质量的对话交流。

白话解释

这名大学生在拥有海量知识后，又学习了一些与人交流的方式，也就是交流模板后，他已经可以见人说人话，见鬼说鬼话，同时也刷了一下过往考研题目，已经具备了考研能力了。

三、instruct模型

指令模型是能够理解和执行人类自然语言指令的模型。它们经过专门训练，能够识别并执行多样化的指令，从简单的查询到复杂的任务执行。

特点

指令解析：准确识别和理解复杂的自然语言指令。
任务执行：能够完成查询、文档修改、设备控制等任务。
定制化能力：在特定指令集上进行训练或微调。

示例

LACES问题模型：用于改进模型的问题理解和响应能力。
SFT（Supervised Fine-Tune）：监督式微调方法，提升指令执行准确性。

白话解释

就是一直刷题，让自己的知识和这个社会系统不断对齐的过程，也就是在chat的基础上不断加强和不断对齐。

标签：一文,训练,示例,模型,指令,三种,base,对话
From： https://blog.csdn.net/qq_45156060/article/details/140517382

模型本身的格式是什么？
模型本身的格式是什么？模型本身的格式和存储内容可以因模型类型、框架和用途的不同而有所差异。然而，在一般情况下，我们可以从以下几个方面来探讨模型的文件格式和存储内容：一、模型文件格式JSON格式：HuggingFaceTransformers等框架中，模型文件常以JSON格式存储，包含了模型的架......
modelscope上的模型如何下载？
modelscope上的模型如何下载？在ModelScope（魔搭）上下载模型，用户可以通过多种方式进行，主要包括直接通过网站界面下载、使用SDK（软件开发工具包）下载，以及通过Git方式下载。以下是详细的下载步骤：一、通过网站界面下载访问ModelScope官网：打开浏览器，访问ModelScope......
大模型中的token是指什么？
大模型中的token是指什么？在大模型（尤其是自然语言处理（NLP）领域中的大模型，如BERT、GPT等）的上下文中，"token"是一个关键概念，它指的是文本数据在被模型处理之前或过程中被分割成的最小单元。这些单元可以是单词、标点符号、子词（subword）等，具体取决于模型的词汇表（vocabulary）和分词策略（to......
什么是大模型？（超详细）大模型从入门到精通，看这一篇就够了
大模型的定义大模型是指具有数千万甚至数亿参数的深度学习模型。近年来，随着计算机技术和大数据的快速发展，深度学习在各个领域取得了显著的成果，如自然语言处理，图片生成，工业数字化等。为了提高模型的性能，研究者们不断尝试增加模型的参数数量，从而诞生了大模型这一概念。大模......
Datawhale AI夏令营第二期——机器学习基于神经网络stack融合策略的多模型融合
#AI夏令营#Datawhale夏令营基于神经网络stack融合策略的多模型融合改进点：1.数据清洗，异常值替换（板块2）2.基于神经网络的stack模型融合（板块5）根据大佬的提示对Task3所做的改进，大佬链接：http://t.csdnimg.cn/RSC3o1.模型导入导入所需要包：importpandasaspdimportnumpy......
R语言贝叶斯MCMC：用rstan建立线性回归模型分析汽车数据和可视化诊断|附代码数据
全文链接 http://tecdat.cn/?p=23255最近我们被客户要求撰写关于rstan的研究报告，包括一些图形和统计输出。本文将谈论Stan以及如何在R中使用rstan创建Stan模型尽管Stan提供了使用其编程语言的文档和带有例子的用户指南，但对于初学者来说，这可能是很难理解的。StanStan是一种用......
数据分享|逻辑回归、随机森林、SVM支持向量机预测心脏病风险数据和模型诊断可视化|附
原文链接：http://tecdat.cn/?p=24973最近我们被客户要求撰写关于心脏病的研究报告，包括一些图形和统计输出。世界卫生组织估计全世界每年有1200万人死于心脏病。在美国和其他发达国家，一半的死亡是由于心血管疾病简介心血管疾病的早期预后可以帮助决定改变高危患者的生活方式，从......
deepspeed训练模型提示：cpu_adam.so: cannot open shared object file: No such file o
背景本人在安装deepspeed后遇到了这个报错，明眼人一看就是缺库，但是搜索到的解决方案(凌漪_,2023)说是设置一个环境变量，实在是治标不治本，而且对本人来说连标都治不了。其他的博客尚未看到解决此问题的。分析这个so文件理论上应该在安装deepspeed的过程中就自动编译好了，但是......
大语言模型（Large Language Models, LLMs）是否需要进行数据校正
大语言模型（LargeLanguageModels,LLMs），如GPT-3，并不总是免于数据校正的过程。实际上，即使是这些大语言模型，在数据预处理中也会涉及到一定的处理和调整。以下是为什么大语言模型在某些情况下不需要明显的批效应校正，同时在某些情况下仍然需要数据校正的原因：为什么大语言模型不需要显......
OpenAI新模型代号曝光，Blackwell需求强劲、英伟达与台积电的晶圆订单量增加25%
ChatGPT狂飙160天，世界已经不是之前的样子。更多资源欢迎关注每日行业新闻1、OpenAI正在开发新的人工智能模型，代号为“草莓”据知情人士和媒体查阅的内部文件，ChatGPT开发商OpenAI正在一个代号为“草莓”的项目中开发一种新的人工智能模型。该项目的细节此前从未被......

一文了解大模型的三种类型

一、base模型

特点

示例

白话解释

二、chat模型

特点

示例

白话解释

三、instruct模型

特点

示例

白话解释

相关文章

赞助商

阅读排行