目录
美国人工智能研究公司OpenAI异军突起:
● 2020年4月发布神经网络Jukebox;
● 2020年5月发布GPT-3,模型参数量为1750亿;
● 2020年6月开放人工智能应用程序接口;
● 2021年1月发布连接文本和图像神经网络CLIP;
● 2021年1月发布从文本创建图像神经网络DALL-E;
● 2022年11月,正式推出对话交互式的ChatGPT。相比GPT-3,ChatGPT引入了基于人类反馈的强化学习(RLHF)技术以及奖励机制。
ChatGPT证明了通过一个具有高水平结构复杂性和大量参数的大模型(foundation model,又称为“基础模型”)可以实现深度学习。
人们形成关于大模型的基本共识:大模型是大语言模型(LLM),也是多模态模型,或者是生成式预训练转换模型。GPT是大模型的一种形态,引发了人工智能生成内容(AIGC)技术的质变。大模型是人工智能赖以生存和发展的基础。现在,与其说人类开始进入人工智能时代,不如说人类进入的是大模型时代。
什么是大模型
人工智能的模型,与通常的模型一样,是以数学和统计学为算法基础的,可以用来描述一个系统或者一个数据集。在机器学习中,模型是核心概念。模型通常是一个函数或者一组函数,可以是线性函数、非线性函数、决策树、神经网络等各种形式。模型的本质就是对这个函数映射的描述和抽象,通过对模型进行训练和优化,可以得到更加准确和有效的函数映射。建立模型的目的是希望从数据中找出一些规律和模式,并用这些规律和模式预测未来的结果。模型的复杂度可以理解为模型所包含的参数数量和复杂度,复杂度越高,模型越容易过拟合。
人工智能大模型的“大”,是指模型参数至少达到1亿。但是这个标准一直在提高,目前很可能已经有了万亿参数以上的模型。GPT-3的参数规模就已经达到了1750亿。
大模型可以定义为大语言模型,具有大规模参数和复杂网络结构的语言模型。与传统语言模型(如生成性模型、分析性模型、辨识性模型)不同,大语言模型通过在大规模语料库上进行训练来学习语言的统计规律,在训练时通常通过大量的文本数据进行自监督学习,从而能够自动学习语法、句法、语义等多层次的语言规律。
近几年,比较有影响力的AI大模型主要来自谷歌(LaMDA、BERT和PaLM-E)、Meta(LLaMA)和OpenAI(GPT)。在中国,AI大模型的主要代表是百度的文心一言、阿里的通义千问和华为的盘古。
这些模型的共同特征是:需要在大规模数据集上进行训练,基于大量的计算资源进行优化和调整。大模型通常用于解决复杂的NLP、计算机视觉和语音识别等任务。这些任务通常需要处理大量的输入数据,并从中提取复杂的特征和模式。借助大模型,深度学习算法可以更好地处理这些任务,提高模型的准确性和性能。
因为AI大模型的出现和发展所显示的涌现性、扩展性和复合性,长期以来人们讨论的所谓“弱人工智能”“强人工智能”“超人工智能”的界限不复存在,这样划分的意义也自然消失。
大模型是人工智能历史的突变和涌现
人工智能发展的历史:
达特茅斯学院的人工智能会议引申出人工智能的三个基本派别。
1、符号学派(Symbolism),又称逻辑主义、心理学派或计算机学派。该学派主张通过计算机符号操作来模拟人的认知过程和大脑抽象逻辑思维,实现人工智能。符号学派主要集中在人类推理、规划、知识表示等高级智能领域。
2、联结学派(Connectionism),又称仿生学派或生理学派。联结学派强调对人类大脑的直接模拟,认为神经网络和神经网络间的连接机制和学习算法能够产生智能。学习和训练是需要有内容的,数据就是机器学习、训练的内容。联结学派的技术性突破包括感知器、人工神经网络和深度学习。
3、行为学派(Actionism),该学派的思想来源是进化论和控制论。其原理为控制论以及感知—动作型控制系统。该学派认为行为是个体用于适应环境变化的各种身体反应的组合,其理论目标在于预见和控制行为。
比较上述人工智能的三个派别:
符号学派依据的是抽象思维,注重数学可解释性;
联结学派则是形象思维,偏向于仿人脑模型;
行为学派是感知思维,倾向身体和行为模拟。
从共同性方面来说,这三个派别都要以算法、算力和数据为核心要素。但是,在相当长的时间里,符号学派主张的基于推理和逻辑的AI路线处于主流地位。但是,因为计算机只能处理符号,不可能具有人类最为复杂的感知,符号学派在20世纪80年代末开始走向式微。
20世纪80年代末之后的AI发展史中,有三个重要的里程碑。
1. 机器学习(ML)
机器学习基于对数据和规则的处理和推理,主要应用于数据分析、模式识别、NLP等领域;而人类学习是一种有目的、有意识、逐步积累的过程。总之,机器学习是一种基于算法和模型的自动化过程,包括监督学习和无监督学习两种形式。
2、深度学习(DL)
深度学习是机器学习的一个分支。所谓的深度是指神经网络中隐藏层的数量,它提供了学习的大规模能力。因为大数据和深度学习爆发并得以高速发展,最终成就了深度学习理论和实践。
深度学习是建立在计算机神经网络理论和机器学习理论上的科学。它使用建立在复杂的网络结构上的多处理层,结合非线性转换方法,对复杂数据模型进行抽象,从而识别图像、声音和文本。在深度学习的历史上,CNN和循环神经网络(RNN)曾经是两种经典模型。
3、人工智能内容生成大模型
大模型利用大规模无标注数据通过自监督学习预训练语言大模型,得到基础模型,再利用下游任务的有标注数据进行有监督学习微调(instruction tuning)模型参数,实现下游任务的适配。
大模型的训练需要大量的计算资源和数据,OpenAI使用了数万台CPU和图像处理单元(GPU),并利用了多种技术,如自监督学习和增量训练等,对模型进行了优化和调整。2018—2023年,OpenAI实现大模型的五次迭代。
总之,大模型是在数学、统计学、计算机科学、物理学、工程学、神经学、语言学、哲学、人工智能学融合基础上的一次突变,并导致了一种“涌现”(emergence)。大模型也因此称得上是一场革命。
大模型的大脑和心脏
神经网络是大模型的“大脑”,现在的大模型都是以人工神经网络为基础的算法数学模型。其基本原理依然是罗森布拉特的智能机。
大模型的基本特征:
大模型需要可持续的文本数据输入和预训练。大模型生成的内容的前提是大规模的文本数据输入,并在海量通用数据上进行预训练。通过预训练不断调整和优化模型参数,使得模型的预测结果尽可能接近实际结果。
大模型具有理解自然语言的能力和模式。自然语言,例如汉语、英语及其文字,具有复杂性和多样性,且伴随文化演变而进化。不同于基于语法规则、句法规则的传统语言模型,大语言模型基于统计语言学的思想,在大量文本数据上进行自监督学习,利用自然语言中的统计性规律,涉及贝叶斯原理(Bayes theorem)和马尔可夫链(Markov chain)等数学工具、N元(N-gram)语言模型,通过对大量语法和句法进行正确的样本学习,捕捉相关规则并进行推断,对各种不同形式的语言表达保持一定的容忍性、适应性和灵活性,从而生成具有语法和语义合理性的文本。
大模型已经形成“思维链”(CoT)。“思维链”是重要的微调技术手段,其本质是一个多步推理的过程。通过让大语言模型将一个问题拆解为多个步骤,一步一步分析,逐步得出正确答案。
大模型需要向量数据库的支持。虽然大模型呈现出端到端、文本输入输出的形式,但是大模型实际接收和学习的数据并不是传统文本,因为文本本身数据维度太高、学习过于低效,所以需要向量化的文本。所谓向量化的文本,就是模型对自然语言的压缩和总结。向量也因此成为大模型数据存储的基本单位和AI理解世界的通用数据形式。
大模型具有不断成长的泛化(generalization)功能。大模型泛化是指大模型可以应用(泛化)到其他场景,这一能力也是模型的核心。大语言模型通过大量的数据训练,掌握了语言的潜在模式和规律,从而在面对新的、未见过的语言表达时具有一定的泛化能力。
大模型植入了“控制论”人工反馈和强化学习机制。反馈是控制论中的基本概念,是指一个系统把信息输送出去,又把其作用结果返回,并对信息的再输出产生影响,起到控制和调节作用的过程。大模型构建人类反馈数据集,训练一个激励模型,模仿人类偏好对结果打分,通过从外部获得激励来校正学习方向,从而获得一种自适应的学习能力。
大模型的“心脏”---Transformer,是一种基于注意力机制的深度神经网络,可以高效并行处理序列数据,与人的大脑非常近似。
Transformer包括以下基本特征:
- 由编码组件(encoder)和解码组件(decoder)两个部分组成;
- 采用神经网络处理序列数据,神经网络被用来将一种类型的数据转换为另一种类型的数据,在训练期间,神经网络的隐藏层(位于输入和输出之间的层)以最能代表输入数据类型特征的方式调整其参数,并将其映射到输出;
- 拥有的训练数据和参数越多,它就越有能力在较长文本序列中保持连贯性和一致性;
- 标记和嵌入——输入文本必须经过处理并转换为统一格式,然后才能输入到Transformer;
- 实现并行处理整个序列,从而可以将顺序深度学习模型的速度和容量扩展到前所未有的速度;
- 引入“注意机制”,可以在正向和反向的非常长的文本序列中跟踪单词之间的关系,包括自注意力机制(self-attention)和多头注意力机制(multi-head attention)——其中的多头注意力机制中有多个自注意力机制,可以捕获单词之间多种维度上的相关系数注意力评分(attention score),摒弃了递归和卷积;
- 训练和反馈——在训练期间,Transformer提供了非常大的配对示例语料库(例如,英语句子及其相应的法语翻译),编码器模块接收并处理完整的输入字符串,尝试建立编码的注意向量和预期结果之间的映射。
在Transformer之前,发挥近似功能的是RNN或CNN。Transformer起初主要应用于NLP,但渐渐地,它在几乎所有的领域都发挥了作用,通用性也随之成为Transformer最大的优势。包括图像、视频、音频等多领域的模型都需要使用Transformer。
总之,Transformer是一种非常高效、易于扩展、并行化的架构,其核心是基于注意力机制的技术,可以建立起输入和输出数据的不同组成部分之间的依赖关系,具有质量更优、更强的并行性和训练时间显著减少的优势。Transformer现在被广泛应用于NLP的各个领域,是一套在NLP各业务全面开花的语言模型。
大模型带来的危机
---能源危机---
任何类型的大模型都是通过复杂构造支持的。这个结构包括硬件基础设施层、软件基础设施层、模型MaaS层和应用层。GPU就是硬件基础设施层的核心,GPU的高性能计算推动了AI大模型的发展,AI大模型也不断对GPU提出迭代要求。
AI大模型的演变,将加速对能源的需求。国际数据公司(IDC)预测,到2025年,全球数据量将达到175ZB,而且近90%的数据都是非结构化的。这些数据需要大量的计算能力才能被分析和处理。同时,随着AI算法不断升级和发展,它们的复杂性和计算量也在不断增加。据估计,目前AI的能源消耗占全球能源消耗的约3%。根据一份报告,到2025年,AI将消耗15%的全球电力供应。除了硬件开发所必须投入的“固定碳成本”以外,对于人工智能日常环境的维护投入也不容小觑。所以,AI的快速发展将对能源消耗和环境产生巨大的影响。
AI的快速发展和应用带来了能源消耗和环境问题,需要在技术和政策上寻求解决方案。在这一过程中,需要寻求可持续的能源供应来减少对传统能源的依赖,并开发在非常低功耗的芯片上运行的高效AI大模型。
---引发知识革命---
基于大数据与Transformer的大模型,实现了对知识体系的一系列改变。
- 改变知识生产的主体。即从人类垄断知识生成转变为AI生产知识,以及人和AI混合生产知识。
- 改变知识谱系。
- 改变知识的维度。知识可分为简单知识和复杂知识、独有知识和共有知识、具体知识和抽象知识、显性知识和隐性知识等。而人工智能易于把握知识的隐性维度。
- 改变知识获取途径。
- 改变推理和判断方式。人类的常识基于推理和判断,而机器常识则是基于逻辑和算法的。人类可以根据自己的经验和判断力做出决策,而机器则需要依赖程序和算法。
- 改变知识创新方式和加速知识更新速度。知识更新可以通过AI实现内容生成,并且AI大模型具有不断生成新知识的天然优势。人类知识处理的范式将发生转换。人类知识的边界有机会更快速地扩展。
大模型引发知识革命,形成人类自然智慧和人工智能智慧并存的局面。
---对人类存在的威胁---
现在,人类面临AI大模型挑战,并且这一挑战不仅仅关系到职场动荡、增加失业的问题。人类面对的是更为严酷的现实课题:人是否或早或晚都会成为大模型的工具人?不仅如此,如果AI出现推理能力,并在无人知道原因的情况下越过界限,AI是否会对人类造成威胁?最近,网上有这样的消息:有人利用最新的AutoGPT开发出ChaosGPT,下达毁灭人类指令,AI自动搜索核武器资料,并招募其他AI辅助。现在个人和公司不仅允许AI系统生成代码,并且会将其实际运行。
人类进入如何理解大模型、预知人工智能的重要节点,人工智能被恶意利用、彻底失控的威胁也隐隐出现。特别是由于AI幻象(hallucinations)的存在,对人类决策和行为的误导也更容易发生。
最近还有一个消息:来自洛桑联邦理工学院的研究团队提出了一种全新的方法,可以用AI从大脑信号中提取视频画面,迈出“读脑术”的第一步,相关论文也已登上《自然》(Nature)杂志。虽然这篇论文受到很多质疑,但可以肯定的是,除了试图改善人类生活的科学家、工程师和企业家外,还将存在阴暗和邪恶力量,人们对AI的不安也随之与日俱增。AI是人类的又一个潘多拉盒子,且很可能再无人能将其关上。
参考文献
摘录自:《大模型时代:ChatGPT开启通用人工智能浪潮》代序 朱嘉明
关注我,躺不平就一起卷吧
顺便厚颜的打个广告,♥关注我♥,发布的文章专辑涉及到嵌入式开发、AI知识、日常调试bug记录、AI工具使用记录等。当然,也可以关注公众号IT搬砖客,部分专辑源码免费下载。
标签:---,之大,AI,模型,知识,0.5,学习,人工智能 From: https://blog.csdn.net/u013534357/article/details/143159004