首页 > 其他分享 >一文搞懂AI大模型的7个核心概念

一文搞懂AI大模型的7个核心概念

时间:2025-01-08 14:24:35浏览次数:8  
标签:模态 文本 一文 AI 模型 token 搞懂 上下文 向量

随着AI技术的飞速发展,AI大模型已成为推动技术创新和产业变革的核心引擎。

作为AIGC技术的基础支撑,大模型不仅在自然语言处理领域展现出惊人的能力,还通过多模态融合开辟了更广阔的应用空间。

接下来,我们将深入探讨AI大模型的核心概念。

大语言模型(LLM)

大语言模型(LLM)是一种专注于处理语言数据的人工智能模型,通过分析和学习海量文本数据来掌握语言的语法、语义和上下文关系,从而实现自然语言的理解与生成。

大语言模型的核心任务是实现与人类的语言交流,包括书面语言和口语表达。

为什么叫"大语言模型"?这一名称主要来源两个关键特征:规模庞大和语言处理能力。

规模庞大主要体现在模型参数数量、训练数据规模上。现代大语言模型通常拥有数十亿到上千亿个参数,这让其能够准确捕捉复杂的语言模式和细微的语义差异。

语言处理能力则表现在模型能够理解上下文、生成连贯文本、回答复杂问题,并进行流畅的多轮对话。

参数

参数是衡量模型大小的主要指标。通常情况下,参数越多,模型能够学习和表达的知识就越丰富。

大模型的参数可以类比成无数个"开关"。在训练过程中,这些开关会不断调节,使模型能够从海量文本中学习语言规律。

这就像学习弹钢琴,初学者需要反复调整手指力度、按键位置和节奏,直到找到最佳演奏方式。对大模型而言,这些调整项就相当于模型中的"参数"。

当模型遇到每个训练样本时,它会尝试预测结果。如果预测不准确,就会微调这些参数,使其更接近正确答案。通过成千上万次的反复训练,这些参数逐渐积累语言如何排列组合、上下文如何关联的知识。

在大模型领域,我们通常用"B"作为计量单位。"B"代表十亿参数,例如"7B"模型意味着它包含约70亿个可训练的参数。

还有更小或更大的单位:如"K"(千)、"M"(百万)或"T"(万亿)。小型模型可能只有几M参数,而大型模型则可能达到数百B甚至上T。

大模型厂商在展示时常用"模型名称 + 版本号 + 参数量"的格式。比如在阿里云百炼或欧拉玛(Ollama)这样的平台上,你能看到不同规模的模型,其中一些专用于特定领域的定制模型参数量可能只有几百万(M)或几千(K)。

这些参数较少的模型虽然规模小,但在特定领域仍能发挥出色的性能。因此,选择模型时应该根据实际需求,而不是盲目追求更大的参数量。

token

token是大模型处理信息的最基础单位。它可以是一个字、一个完整的词、图像中的像素块,或是音频中的一帧片段。具体形式取决于模型的输入类型和分词或分块方式。

在中文场景下,常见的分词策略会将句子分成最小的语义片段。比如"你好!"会被拆分成三个token:"你"、"好"、"!"。

再如"我想吃拉面。"会被拆分为"我"、"想"、"吃"、"拉面"、"。"。这里保留"拉面"作为一个完整token,是因为拆分后会失去原有的语义。

token的拆分通常依赖分词工具或模型内置的分词功能,如THULAC、HanLP、LTP等。这些工具能够智能地将完整句子拆解成若干token。

对普通用户来说,无需直接操作这些分词工具。大多数大模型已内置分词方案,只要输入原始文本,模型就会自动完成token化,再进行后续推理。

上下文

上下文指对话或文本中提供的相关背景信息。大模型处理输入时会参考之前的内容来理解新问题。

这类似人与人之间的对话。假设有人说"我正在开发一个新功能,你有什么问题吗?",你能理解这是在讨论产品需求或技术问题。

但如果一个不了解情况的人突然被问"你有什么问题吗?",他就无法给出恰当的回答,因为缺少必要的背景信息。

大模型的问答机制也是如此。当你先问"这个文档包含哪些部分?",然后问"第二部分的核心观点是什么?"时,模型会结合前一个问题和答案,给出连贯且合理的回应。但若缺少这些前置信息,模型就无法确定具体是哪份"文档",也就无法描述其"核心观点"。

实际应用中,上下文长度有限制。当对话内容过多导致上下文积累太长时,模型可能会遗忘早期内容或不得不丢弃之前的对话。目前主流大模型都会在产品文档中说明其支持的最大上下文长度,一般在4K到32K token之间,某些专门用于长文档分析的模型甚至支持更长的上下文范围。

上下文让大模型能在多轮对话中持续理解用户意图。但要注意避免引入过多无关信息,以免影响模型对核心问题的把握。

多模态

多模态是指模型能够处理多种不同类型的数据,比如文字、图片、文档、语音、视频等。与之相对的单模态模型只能处理其中一种类型。

例如,纯文本模型只能理解文字内容,却无法理解图像信息。如果你把一张图片丢给它,它就无从下手了。

现在不少厂商都在推动多模态模型的发展。比如某些大模型既能回答文本问题,又能接受图片输入,然后结合图片和文本进行分析,告诉你图片中的物体是什么或文档中的结构如何。

有些还能处理音频,识别语音中的说话人情感、语速等特征。这些能力都归功于“多模态预训练”思想,让模型在不同模态中学习并映射更丰富的知识。

OpenAI早前推出的GPT-3属于单模态,主要处理文本。后来的GPT-4已经加入了对图像等多模态数据的理解。

阿里云、百度、腾讯等国内厂商也在大力推进多模态模型的研究与应用。一些通用大模型平台,还会提供在线上传文档或图片的功能,用来做检索或问答。这类多模态能力可以应用在客服机器人、智能审图、视频分析等许多领域。

温度

温度(temperature)是大模型生成回答时,控制其“随机性”或“发散度”的一个关键参数。它通常用0到1之间的小数或类似的范围数值表示。

当温度值高时,模型更愿意尝试不同的词汇组合,并产生更具创造性、跳脱的回答。当温度值低时,模型会倾向更保守、更一致的回答,减少出现天马行空答案的可能。

举个简单的例子:当你把温度调高,并让模型写一首诗,它可能会采用更独特的语句、夸张的比喻。但如果你希望模型回答得严谨有序,不要离题太远,就可以将温度调低,让它更像一个“正经”的程序一样回答问题。

不同场景下对温度的需求不一样。如果你在做一个创意写作辅助,就可能希望温度大一些,多尝试不同句式。如果你在写严肃报告,就希望温度小一些,以保证逻辑紧密和语言准确。

在许多大模型调用接口时,你都可以自由配置这个温度。一般情况下,默认的温度值就能满足很多应用需求。

如果你发现生成内容不断重复,毫无新意,可以尝试提高温度。如果你发现模型经常“跑题”或“脑洞太大”,则适当降低温度。温度并不是越大越好,也不是越小越好,要根据具体使用场景做调整。

词向量

向量(vector)在数学领域是一个数字列表,例如一维向量表示为(x),二维向量表示为(x, y),三维向量表示为(x, y, z),以此类推。

大模型在处理文本时,会将每个token或词转换成高维向量,这个过程称为"词向量"或"embedding"。

为什么需要词向量?因为机器无法直接理解"苹果"或"电脑"这样的文字符号,但能轻松处理数字。通过将词语映射到数值向量空间,模型就能用"距离"和"方向"来表示词语之间的关系。向量距离越近,表示两个词的语义越相似;距离越远,则语义差异越大。

对大语言模型来说,词向量是理解词语含义和上下文关联的基础。模型通过词向量学习词汇间的内在关系,比如"出租车"和"司机"在语义上紧密相连,"企业"和"员工"也经常关联在一起。

当两个向量非常相似时,说明这些词在语义上有共同之处。这使模型能在回答问题时推断出问题关联的内容。

在海量数据中,模型反复学习大量文本内容,将用法相似的词放在向量空间的相近位置。最终生成的向量可用于文本相似度计算、语义检索、聚类分析等多种应用。这也是大模型能够"理解"文字上下文和深层逻辑的关键原因之一。

标签:模态,文本,一文,AI,模型,token,搞懂,上下文,向量
From: https://www.cnblogs.com/yanghj010/p/18659598

相关文章

  • AI换脸:FaceFusion 3.1 重磅更新,支持DFM模型
    FaceFusion3.1迎来了全新的功能和优化,不仅为用户带来了更强大的换脸效果,还提升了整个应用的稳定性和操作体验。以下是此次更新的亮点:更新内容DeepFaceLive对模型的支持新增对DeepFaceLive模型的支持,使得面部交换效果更加精细、流畅。后备感知下载提供商引入了后备下载提供商,......
  • 通义灵码 AI 程序员
    通义灵码AI程序员,具备多文件代码修改(Multi-fileEdit)和使用工具(Tool-use)的能力,可以帮助开发者端到端地完成一个编码任务,如需求实现、问题解决、单元测试用例生成、批量代码修改等。AI程序员可以帮助开发者快速完成一个需求任务的代码编写工作,在与AI程序员对话过程中,可以......
  • 使用LangChain模板在Amazon Bedrock上配置Anthropic‘s Claude作为聊天机器人
    文章目录概要整体架构流程技术名词解释技术细节小结概要提示:这里可以添加技术概要例如:openAI的GPT大模型的发展历程。整体架构流程提示:这里可以添加技术整体架构例如:在语言模型中,编码器和解码器都是由一个个的Transformer组件拼接在一起形成的。技术......
  • 【解密三大AI:感知、增强与生成智能的未来】探讨Perceptive AI、Enhancive AI与Generat
    【解密三大AI:感知、增强与生成智能的未来】探讨PerceptiveAI、EnhanciveAI与GenerativeAI的核心概念、应用及未来影响(二)【解密三大AI:感知、增强与生成智能的未来】探讨PerceptiveAI、EnhanciveAI与GenerativeAI的核心概念、应用及未来影响(二)文章目录【解密三大A......
  • 1、AI Agent基础概念
    1.AIAgent的定义及其在人工智能领域的定位1.1什么是AIAgentAIAgent,又称智能代理,是一种具备自主性、反应性、主动性和社交能力的计算系统,能够感知环境并在其中采取行动以实现特定目标。作为人工智能领域的重要组成部分,AIAgent在现代AI系统中扮演着关键角色。1.2AI......
  • #渗透测试#网络安全# 一文搞懂什么是蜜罐!!!
    免责声明本教程仅为合法的教学目的而准备,严禁用于任何形式的违法犯罪活动及其他商业行为,在使用本教程前,您应确保该行为符合当地的法律法规,继续阅读即表示您需自行承担所有操作的后果,如有异议,请立即停止本文章读。目录一、蜜罐的定义二、蜜罐的作用三、蜜罐的类型四、蜜罐......
  • 十天速成:打造你的AI低代码系统(前言)
    前言第一部分:AI辅助开发和AI辅助测试(基于IDEA插件开发)第二部分:无代码-动态列表第三部分:无代码-拖拽表单第四部分:无代码-任务流(编写中...)第五部分:无代码-审批流(编写中...)第六部分:无代码-分布式任务调度(编写中...)第七部分:附录:百度千帆大模型接入使用方法第八部......
  • AI自动化编程:程序员的变革新篇还是失业序曲?
    在当今科技飞速发展的浪潮之下,AI自动化编程是否会将程序员推向失业的深渊,已然成为一个饱受争议却又与现实紧密交织的关键议题。接下来,不妨从多个维度深入探究这一错综复杂的问题。一、AI自动化编程的斐然优势AI编程工具宛如熠熠生辉的新星,其中GitHubCopilot、ChatGPT等......
  • 【一文入门】Go语言常用语法和案例
    简介Go语言(Golang)作为一门现代编程语言,以其简洁、并发性强、编译速度快而备受欢迎。它由谷歌开发,旨在解决大型软件项目中的常见问题。对于初学者和有经验的开发者来说,Go语言提供了一套直观的语法和强大的工具集,可以高效地构建可靠的软件解决方案。本篇文章旨在为读者提供......
  • JuiceFS 2024:开源与商业并进,迈向 AI 原生时代
    即将过去的2024年,是JuiceFS开源版本推出的第4年,企业版的第8个年头。回顾过去这一年,JuiceFS社区版依旧保持着快速成长的势头,GitHub星标突破11.1K,各项使用指标增长均超过100%,其中文件系统总数量较前一年更是增长了8.5倍;企业版同样持续保持高速增长,继去年实现盈亏平衡......