一文搞懂AI大模型的7个核心概念

标签：模态文本一文 AI 模型 token 搞懂上下文向量

随着AI技术的飞速发展，AI大模型已成为推动技术创新和产业变革的核心引擎。

作为AIGC技术的基础支撑，大模型不仅在自然语言处理领域展现出惊人的能力，还通过多模态融合开辟了更广阔的应用空间。

接下来，我们将深入探讨AI大模型的核心概念。

大语言模型（LLM）

大语言模型（LLM）是一种专注于处理语言数据的人工智能模型，通过分析和学习海量文本数据来掌握语言的语法、语义和上下文关系，从而实现自然语言的理解与生成。

大语言模型的核心任务是实现与人类的语言交流，包括书面语言和口语表达。

为什么叫"大语言模型"？这一名称主要来源两个关键特征：规模庞大和语言处理能力。

规模庞大主要体现在模型参数数量、训练数据规模上。现代大语言模型通常拥有数十亿到上千亿个参数，这让其能够准确捕捉复杂的语言模式和细微的语义差异。

语言处理能力则表现在模型能够理解上下文、生成连贯文本、回答复杂问题，并进行流畅的多轮对话。

参数

参数是衡量模型大小的主要指标。通常情况下，参数越多，模型能够学习和表达的知识就越丰富。

大模型的参数可以类比成无数个"开关"。在训练过程中，这些开关会不断调节，使模型能够从海量文本中学习语言规律。

这就像学习弹钢琴，初学者需要反复调整手指力度、按键位置和节奏，直到找到最佳演奏方式。对大模型而言，这些调整项就相当于模型中的"参数"。

当模型遇到每个训练样本时，它会尝试预测结果。如果预测不准确，就会微调这些参数，使其更接近正确答案。通过成千上万次的反复训练，这些参数逐渐积累语言如何排列组合、上下文如何关联的知识。

在大模型领域，我们通常用"B"作为计量单位。"B"代表十亿参数，例如"7B"模型意味着它包含约70亿个可训练的参数。

还有更小或更大的单位：如"K"（千）、"M"（百万）或"T"（万亿）。小型模型可能只有几M参数，而大型模型则可能达到数百B甚至上T。

大模型厂商在展示时常用"模型名称 + 版本号 + 参数量"的格式。比如在阿里云百炼或欧拉玛（Ollama）这样的平台上，你能看到不同规模的模型，其中一些专用于特定领域的定制模型参数量可能只有几百万（M）或几千（K）。

这些参数较少的模型虽然规模小，但在特定领域仍能发挥出色的性能。因此，选择模型时应该根据实际需求，而不是盲目追求更大的参数量。

token

token是大模型处理信息的最基础单位。它可以是一个字、一个完整的词、图像中的像素块，或是音频中的一帧片段。具体形式取决于模型的输入类型和分词或分块方式。

在中文场景下，常见的分词策略会将句子分成最小的语义片段。比如"你好！"会被拆分成三个token："你"、"好"、"！"。

再如"我想吃拉面。"会被拆分为"我"、"想"、"吃"、"拉面"、"。"。这里保留"拉面"作为一个完整token，是因为拆分后会失去原有的语义。

token的拆分通常依赖分词工具或模型内置的分词功能，如THULAC、HanLP、LTP等。这些工具能够智能地将完整句子拆解成若干token。

对普通用户来说，无需直接操作这些分词工具。大多数大模型已内置分词方案，只要输入原始文本，模型就会自动完成token化，再进行后续推理。

上下文

上下文指对话或文本中提供的相关背景信息。大模型处理输入时会参考之前的内容来理解新问题。

这类似人与人之间的对话。假设有人说"我正在开发一个新功能，你有什么问题吗？"，你能理解这是在讨论产品需求或技术问题。

但如果一个不了解情况的人突然被问"你有什么问题吗？"，他就无法给出恰当的回答，因为缺少必要的背景信息。

大模型的问答机制也是如此。当你先问"这个文档包含哪些部分？"，然后问"第二部分的核心观点是什么？"时，模型会结合前一个问题和答案，给出连贯且合理的回应。但若缺少这些前置信息，模型就无法确定具体是哪份"文档"，也就无法描述其"核心观点"。

实际应用中，上下文长度有限制。当对话内容过多导致上下文积累太长时，模型可能会遗忘早期内容或不得不丢弃之前的对话。目前主流大模型都会在产品文档中说明其支持的最大上下文长度，一般在4K到32K token之间，某些专门用于长文档分析的模型甚至支持更长的上下文范围。

上下文让大模型能在多轮对话中持续理解用户意图。但要注意避免引入过多无关信息，以免影响模型对核心问题的把握。

多模态

多模态是指模型能够处理多种不同类型的数据，比如文字、图片、文档、语音、视频等。与之相对的单模态模型只能处理其中一种类型。

例如，纯文本模型只能理解文字内容，却无法理解图像信息。如果你把一张图片丢给它，它就无从下手了。

现在不少厂商都在推动多模态模型的发展。比如某些大模型既能回答文本问题，又能接受图片输入，然后结合图片和文本进行分析，告诉你图片中的物体是什么或文档中的结构如何。

有些还能处理音频，识别语音中的说话人情感、语速等特征。这些能力都归功于“多模态预训练”思想，让模型在不同模态中学习并映射更丰富的知识。

OpenAI早前推出的GPT-3属于单模态，主要处理文本。后来的GPT-4已经加入了对图像等多模态数据的理解。

阿里云、百度、腾讯等国内厂商也在大力推进多模态模型的研究与应用。一些通用大模型平台，还会提供在线上传文档或图片的功能，用来做检索或问答。这类多模态能力可以应用在客服机器人、智能审图、视频分析等许多领域。

温度

温度（temperature）是大模型生成回答时，控制其“随机性”或“发散度”的一个关键参数。它通常用0到1之间的小数或类似的范围数值表示。

当温度值高时，模型更愿意尝试不同的词汇组合，并产生更具创造性、跳脱的回答。当温度值低时，模型会倾向更保守、更一致的回答，减少出现天马行空答案的可能。

举个简单的例子：当你把温度调高，并让模型写一首诗，它可能会采用更独特的语句、夸张的比喻。但如果你希望模型回答得严谨有序，不要离题太远，就可以将温度调低，让它更像一个“正经”的程序一样回答问题。

不同场景下对温度的需求不一样。如果你在做一个创意写作辅助，就可能希望温度大一些，多尝试不同句式。如果你在写严肃报告，就希望温度小一些，以保证逻辑紧密和语言准确。

在许多大模型调用接口时，你都可以自由配置这个温度。一般情况下，默认的温度值就能满足很多应用需求。

如果你发现生成内容不断重复，毫无新意，可以尝试提高温度。如果你发现模型经常“跑题”或“脑洞太大”，则适当降低温度。温度并不是越大越好，也不是越小越好，要根据具体使用场景做调整。

词向量

向量（vector）在数学领域是一个数字列表，例如一维向量表示为(x)，二维向量表示为(x, y)，三维向量表示为(x, y, z)，以此类推。

大模型在处理文本时，会将每个token或词转换成高维向量，这个过程称为"词向量"或"embedding"。

为什么需要词向量？因为机器无法直接理解"苹果"或"电脑"这样的文字符号，但能轻松处理数字。通过将词语映射到数值向量空间，模型就能用"距离"和"方向"来表示词语之间的关系。向量距离越近，表示两个词的语义越相似；距离越远，则语义差异越大。

对大语言模型来说，词向量是理解词语含义和上下文关联的基础。模型通过词向量学习词汇间的内在关系，比如"出租车"和"司机"在语义上紧密相连，"企业"和"员工"也经常关联在一起。

当两个向量非常相似时，说明这些词在语义上有共同之处。这使模型能在回答问题时推断出问题关联的内容。

在海量数据中，模型反复学习大量文本内容，将用法相似的词放在向量空间的相近位置。最终生成的向量可用于文本相似度计算、语义检索、聚类分析等多种应用。这也是大模型能够"理解"文字上下文和深层逻辑的关键原因之一。

标签：模态,文本,一文,AI,模型,token,搞懂,上下文,向量
From： https://www.cnblogs.com/yanghj010/p/18659598

一文搞懂AI大模型的7个核心概念

大语言模型（LLM）

参数

token

上下文

多模态

温度

词向量

相关文章

赞助商

阅读排行