随着AI技术的飞速发展,AI大模型已成为推动技术创新和产业变革的核心引擎。
作为AIGC技术的基础支撑,大模型不仅在自然语言处理领域展现出惊人的能力,还通过多模态融合开辟了更广阔的应用空间。
接下来,我们将深入探讨AI大模型的核心概念。
大语言模型(LLM)
大语言模型(LLM)是一种专注于处理语言数据的人工智能模型,通过分析和学习海量文本数据来掌握语言的语法、语义和上下文关系,从而实现自然语言的理解与生成。
大语言模型的核心任务是实现与人类的语言交流,包括书面语言和口语表达。
为什么叫"大语言模型"?这一名称主要来源两个关键特征:规模庞大和语言处理能力。
规模庞大主要体现在模型参数数量、训练数据规模上。现代大语言模型通常拥有数十亿到上千亿个参数,这让其能够准确捕捉复杂的语言模式和细微的语义差异。
语言处理能力则表现在模型能够理解上下文、生成连贯文本、回答复杂问题,并进行流畅的多轮对话。
参数
参数是衡量模型大小的主要指标。通常情况下,参数越多,模型能够学习和表达的知识就越丰富。
大模型的参数可以类比成无数个"开关"。在训练过程中,这些开关会不断调节,使模型能够从海量文本中学习语言规律。
这就像学习弹钢琴,初学者需要反复调整手指力度、按键位置和节奏,直到找到最佳演奏方式。对大模型而言,这些调整项就相当于模型中的"参数"。
当模型遇到每个训练样本时,它会尝试预测结果。如果预测不准确,就会微调这些参数,使其更接近正确答案。通过成千上万次的反复训练,这些参数逐渐积累语言如何排列组合、上下文如何关联的知识。
在大模型领域,我们通常用"B"作为计量单位。"B"代表十亿参数,例如"7B"模型意味着它包含约70亿个可训练的参数。
还有更小或更大的单位:如"K"(千)、"M"(百万)或"T"(万亿)。小型模型可能只有几M参数,而大型模型则可能达到数百B甚至上T。
大模型厂商在展示时常用"模型名称 + 版本号 + 参数量"的格式。比如在阿里云百炼或欧拉玛(Ollama)这样的平台上,你能看到不同规模的模型,其中一些专用于特定领域的定制模型参数量可能只有几百万(M)或几千(K)。
这些参数较少的模型虽然规模小,但在特定领域仍能发挥出色的性能。因此,选择模型时应该根据实际需求,而不是盲目追求更大的参数量。
token
token是大模型处理信息的最基础单位。它可以是一个字、一个完整的词、图像中的像素块,或是音频中的一帧片段。具体形式取决于模型的输入类型和分词或分块方式。
在中文场景下,常见的分词策略会将句子分成最小的语义片段。比如"你好!"会被拆分成三个token:"你"、"好"、"!"。
再如"我想吃拉面。"会被拆分为"我"、"想"、"吃"、"拉面"、"。"。这里保留"拉面"作为一个完整token,是因为拆分后会失去原有的语义。
token的拆分通常依赖分词工具或模型内置的分词功能,如THULAC、HanLP、LTP等。这些工具能够智能地将完整句子拆解成若干token。
对普通用户来说,无需直接操作这些分词工具。大多数大模型已内置分词方案,只要输入原始文本,模型就会自动完成token化,再进行后续推理。
上下文
上下文指对话或文本中提供的相关背景信息。大模型处理输入时会参考之前的内容来理解新问题。
这类似人与人之间的对话。假设有人说"我正在开发一个新功能,你有什么问题吗?",你能理解这是在讨论产品需求或技术问题。
但如果一个不了解情况的人突然被问"你有什么问题吗?",他就无法给出恰当的回答,因为缺少必要的背景信息。
大模型的问答机制也是如此。当你先问"这个文档包含哪些部分?",然后问"第二部分的核心观点是什么?"时,模型会结合前一个问题和答案,给出连贯且合理的回应。但若缺少这些前置信息,模型就无法确定具体是哪份"文档",也就无法描述其"核心观点"。
实际应用中,上下文长度有限制。当对话内容过多导致上下文积累太长时,模型可能会遗忘早期内容或不得不丢弃之前的对话。目前主流大模型都会在产品文档中说明其支持的最大上下文长度,一般在4K到32K token之间,某些专门用于长文档分析的模型甚至支持更长的上下文范围。
上下文让大模型能在多轮对话中持续理解用户意图。但要注意避免引入过多无关信息,以免影响模型对核心问题的把握。
多模态
多模态是指模型能够处理多种不同类型的数据,比如文字、图片、文档、语音、视频等。与之相对的单模态模型只能处理其中一种类型。
例如,纯文本模型只能理解文字内容,却无法理解图像信息。如果你把一张图片丢给它,它就无从下手了。
现在不少厂商都在推动多模态模型的发展。比如某些大模型既能回答文本问题,又能接受图片输入,然后结合图片和文本进行分析,告诉你图片中的物体是什么或文档中的结构如何。
有些还能处理音频,识别语音中的说话人情感、语速等特征。这些能力都归功于“多模态预训练”思想,让模型在不同模态中学习并映射更丰富的知识。
OpenAI早前推出的GPT-3属于单模态,主要处理文本。后来的GPT-4已经加入了对图像等多模态数据的理解。
阿里云、百度、腾讯等国内厂商也在大力推进多模态模型的研究与应用。一些通用大模型平台,还会提供在线上传文档或图片的功能,用来做检索或问答。这类多模态能力可以应用在客服机器人、智能审图、视频分析等许多领域。
温度
温度(temperature)是大模型生成回答时,控制其“随机性”或“发散度”的一个关键参数。它通常用0到1之间的小数或类似的范围数值表示。
当温度值高时,模型更愿意尝试不同的词汇组合,并产生更具创造性、跳脱的回答。当温度值低时,模型会倾向更保守、更一致的回答,减少出现天马行空答案的可能。
举个简单的例子:当你把温度调高,并让模型写一首诗,它可能会采用更独特的语句、夸张的比喻。但如果你希望模型回答得严谨有序,不要离题太远,就可以将温度调低,让它更像一个“正经”的程序一样回答问题。
不同场景下对温度的需求不一样。如果你在做一个创意写作辅助,就可能希望温度大一些,多尝试不同句式。如果你在写严肃报告,就希望温度小一些,以保证逻辑紧密和语言准确。
在许多大模型调用接口时,你都可以自由配置这个温度。一般情况下,默认的温度值就能满足很多应用需求。
如果你发现生成内容不断重复,毫无新意,可以尝试提高温度。如果你发现模型经常“跑题”或“脑洞太大”,则适当降低温度。温度并不是越大越好,也不是越小越好,要根据具体使用场景做调整。
词向量
向量(vector)在数学领域是一个数字列表,例如一维向量表示为(x),二维向量表示为(x, y),三维向量表示为(x, y, z),以此类推。
大模型在处理文本时,会将每个token或词转换成高维向量,这个过程称为"词向量"或"embedding"。
为什么需要词向量?因为机器无法直接理解"苹果"或"电脑"这样的文字符号,但能轻松处理数字。通过将词语映射到数值向量空间,模型就能用"距离"和"方向"来表示词语之间的关系。向量距离越近,表示两个词的语义越相似;距离越远,则语义差异越大。
对大语言模型来说,词向量是理解词语含义和上下文关联的基础。模型通过词向量学习词汇间的内在关系,比如"出租车"和"司机"在语义上紧密相连,"企业"和"员工"也经常关联在一起。
当两个向量非常相似时,说明这些词在语义上有共同之处。这使模型能在回答问题时推断出问题关联的内容。
在海量数据中,模型反复学习大量文本内容,将用法相似的词放在向量空间的相近位置。最终生成的向量可用于文本相似度计算、语义检索、聚类分析等多种应用。这也是大模型能够"理解"文字上下文和深层逻辑的关键原因之一。
标签:模态,文本,一文,AI,模型,token,搞懂,上下文,向量 From: https://www.cnblogs.com/yanghj010/p/18659598