首页 > 其他分享 >01-大语言模型发展

01-大语言模型发展

时间:2024-04-21 18:44:06浏览次数:25  
标签:01 语言 训练 一个 模型 这个 向量

AI大模型的相关的一些基础知识,一些背景和基础知识。

多模型强应用AI 2.0时代应用开发者的机会。

0 大纲

  1. AI产业的拆解和常见名词
  2. 应用级开发者,在目前这样一个大背景下的一个职业上面的一些机会
  3. 实战部分的,做这个agent,即所谓智能体的这么一个虚拟项目,项目需求分析、技术选型等

1 大语言模型发展

LLM,Large Language Model,大语言模型。为什么叫2.0?因为在大语言模型,也就是LLM出现之前,我们把它归结为1.0时代。那么1.0时代主要的是NLP(自然语言处理)的各类工程,它其实都是一个特点,就是说通用性比较差。那么整个AI领域的终极的圣杯,或者说将来它的一个终极的一个希望做到的,是AGI(Artificial General Intelligence,人工通用智能)。1.0可能是一个单任务的这么一个AI。比如深蓝战胜象棋冠军,他只会下象棋,而且他的下象棋是学习了很多的这个象棋的这个国际象棋的这个套路,他只会干这一个事情,而且你问他别的事情他肯定不知道。

2 LLM的特点

大语言模型的特点是啥?大语言模型,它就是说可以像语言一样跟我们交互,那么通过语言,它其实可以扩展到很多的场景。那么未来呢,可能会从依据大语言这种方式,我们可能会发展出来真的发展出来AGI,所谓的通用智能,也就是跟我们人类一样拥有智慧的这样的一个智能体。那好,那我们1.0我们AI 1.0我们就不做介绍了,那里面其实有很多NLP的相关的东西。

2.0开始介绍,技术层面基本上是一个从点到面的一个过程。那么最早出现的一个技术,是词向量技术,把自然语言的词语,使用向量来表示。向量是一个数学概念,比如猫,这个词在向量空间里面,它可能就表示成这样一个坐标位置。狗可能就跟它有所区别。牛又不一样。所以可理解为,每一个词,它在向量空间里面都有一个唯一坐标,然后就可构成这样的一个词语字典。然后使用这种one-hot的方式来表示,如苹果标注成101这样的坐标。把自然语言,通过数学语言去给它描述出来,而且它是一个坐标,可精准找到它位置。

3 大模型的不足和解决方案

但有问题,它没有办法表达词语和词语之间的这个关系。比如猫1这样一个坐标,和狗这样01一个坐标,之间什么关系呢?不知道的。

第二就是效率不是很高。

后面发展中,在这个词向量的基础上,出现

4 词嵌入(embedding)

也继续叫词向量也可以,就是对语言模型进行预训练。我们通过大量现有文章资料,让我们的这前面这些词向量,它具备语言信息。那通过了一些训练的预训练之后的这个词向量,它在这个向量空间上,它就带上了一些额外的信息,它就会有效提升我们模型的效果。而且在后续的其他任务中间,去做一个迁移。那么这个就是大语言模型的预训练的这个,一个初始的一个原型。

比如猫、狗,通过坐标标注,让它有这种低维向量的这种这种表示。还可有这样语义相似的一个向量空间相近,好比我们认为,比如说猫和狗,通过我们的预训练的这些大量的文章,资料,我们发现猫和狗都同属于宠物。那么有可能这两个坐标点,在向量空间里就是比较接近。比如说我们找宠物的时候,那么在这个向量空间里面,猫和狗就是在宠物这个向量域里面。牛和羊,都属于我们的常用的肉吃的家畜,那可能就是在那个向量域里面。所以呢,我们可以看到词向量,它就是一个地位向量表示,再一个是语义相似的向量空间,相近的这么一个特性。还有一个,它可以迁移学习,把这个任务,迁移到其他任务里面去。深蓝的下象棋例子,就可以把它的技能去迁移啦。

在词嵌入之后出现

5 巨向量和全文向量

根据这个前文信息,去分析下文或根据本文翻译成另一种语言。那么它代表的呢,是一些模型,如:

  • RNN(Recurrent Neural Network,循环神经网络)
  • LSTM(Long Short-Term Memory,长短期记忆网络)

它可有效处理这种时序性的,序列数据。"What time is it?",训练时,它是一层一层的,它第一层这个神经网络,可能先看到"What",然后"time","is","it",看到最后的问号。它会通过这样的一个顺序,去处理这样的一个语句,去做一个上下文的一个理解。它还可以做到一些短时记忆和选择性的遗忘,就是RNN和LSTM,那么它主要应用在像文本生成啊,语音识别啊,图像描述等等。这个时候就是比如说类似RNN和LSTM这样的模型出现的时候呢,它其实已经可以做到我们常见的一些AI识别。

再往后就到理解上下文,就是全文的上下文,如"买什么 什么is"这个这个模式理解上下文,这个模式代表作是类似比如说这个BERT这样大模型。到这阶段,已经可完成类似完形填空任务。那它就是根据上下文理解当前的代词,比如说男他女她动物它是什么,完成这个完形填空。那么这个时候就属于所谓的真域训练模型时代开启。

特点

支持并行训练,如说CNN(Convolutional Neural Network,卷积神经网络)这个模型比,就比如说这个"What time is it",只能一层一层处理,不支持并行训练。必须完成这个事情之后再做下一个事情。

所以呢,它替代RNN和CNN这样神经网络,更强大,可以实现一些类似语义识别。

最后就是OpenAI这GPT(Generative Pre-trained Transformer)出现,这个模型出现为代表,我们就正式进入了这种超大模型和模型统一的时代。从谷歌T5(Text-to-Text Transfer Transformer)这个模型开始的时候,它是引入了的这样的一个模式来训练模型。也就是说,它是把提示词告诉模型,然后把答案训练出来,然后不停的用这样的模式来训练模型。那么当我们在问模型这些问题的时候,其实也是通过,通过提示词,通过prompt的方式来引导它。所以到这个时代的时候呢,那我们以chatgpt为代表,我们发现它的效果非常惊艳。最新的成果就是说,我们的大模型已经支持了多模态,OpenAI开启的这个大模型时代呢,它其实是把这个,一种基于的这种训练模型这种方式提了出来。

所以我们为什么开始一讲就是说,它整个的大模型的发展,可以说是从一个从点到面的这么一个发展过程。大家知道理解就是它最核心,其实最早的是基于这个词向量的这么一个技术。那么通过这个不断的发展到神经网络,到这种单线的,到并行训练,最后直到这样的一个大规模超大规模的这样一个训练集,实现了这么一个大语言的一个模型的发展。

关注我,紧跟本系列专栏文章,咱们下篇再续!

作者简介:魔都技术专家,多家大厂后端一线研发经验,在分布式系统、和大数据系统等方面有多年的研究和实践经验,拥有从零到一的大数据平台和基础架构研发经验,对分布式存储、数据平台架构、数据仓库等领域都有丰富实践经验。

各大技术社区头部专家博主。具有丰富的引领团队经验,深厚业务架构和解决方案的积累。

负责:

  • 中央/分销预订系统性能优化
  • 活动&优惠券等营销中台建设
  • 交易平台及数据中台等架构和开发设计
  • 车联网核心平台-物联网连接平台、大数据平台架构设计及优化

目前主攻降低软件复杂性设计、构建高可用系统方向。

参考:

本文由博客一文多发平台 OpenWrite 发布!

标签:01,语言,训练,一个,模型,这个,向量
From: https://www.cnblogs.com/JavaEdge/p/18149323

相关文章

  • 【布客技术评论】大模型开源与闭源:原因、现状与前景
    在人工智能领域,大模型的开源与闭源一直是一个备受争议的话题。近期,某大厂厂长说了“开源模型永远超不过闭源模型”,结果,脸书就发布了开源必须Llama,超过了OpenAI的闭源模型GPT4。本文将探讨大模型开源与闭源的原因、当前状况以及未来前景,以期为读者提供深入的理解和分析。算力稀......
  • C语言程序设计-实验报告6
    实验项目名称:实验6循环结构程序设计(for语句的应用)实验项目类型:验证性实验日期:2024年4月15日一、实验目的1.熟练掌握三种循环语句并能正确运用;2.能够用循环实现一些常用算法,如穷举法,迭代法,递推法等;3.进一步学习程序调试;4.了解中国算法,百钱买百鸡。二、实验硬、软件环境......
  • C语言程序设计-实验报告5
    实验项目名称:实验5循环结构程序设计(while、do-while语句的应用)实验项目类型:验证性实验日期:2024年4月11日一、实验目的1.熟练掌握三种循环语句并能正确运用;2.能够用循环实现一些常用算法,如穷举法,迭代法,递推法等;3.进一步学习程序调试;4.了解中国算法,百钱买百鸡。二、实验......
  • [ZJOI2019] 语言 题解
    不愧是\(ZJOI\),《最可做的一道题》都让人一头雾水……首先将问题转化到链上。可以将总共的组数转化为每个点可以到达的城市。明显给每个点建一棵动态开点线段树,维护可以和他通商的点。很明显,可以通商的点的标号连续的一段。我们可以将可以将每一次传播语言的工作当作区间修改......
  • 南昌航空大学软件学院23201823第一次blog
    一、前言:关于这三次的PTA大作业,我认为题目难度是超出了我的现象的,特别是每次的压轴迭代题,这压轴三道题全是迭代而来,息息相关,这也就意味着你如果第一次的设计没有做好,框架出现问题,后续改进的时候就只会越来越吃力甚至是需要把整个架构都推倒重来。最后一道题目的知识点包含也非常......
  • 在C语言中如何找到字符串的长度
    在C语言中处理字符串时,你需要知道如何找到它们的长度。在许多情况下,找到C语言中字符串的长度都是至关重要的。你可能需要执行字符串操作,而许多字符串操作函数都需要字符串的长度作为参数。你可能还需要验证用户输入、比较两个字符串,或者动态管理和分配内存。在本文中,你将学习在......
  • VS2015编译并配置boost 64位
    1、下载boost1.72.0,自Boost1.73后需要匹配C++14版本的编译平台了,对于VS2015下载1.73.0之前版本的boost库包均可BoostVersionHistory 2、解压后编译打开下图cmd进入解压目录中运行bootstrap.bat(进入到目录可以输入cd/dd:或者d:),会生成b2.exe输入命令:b2.exe-j4--build......
  • c语言程序设计——实验报告六
    实验项目名称:实验6循环结构程序设计(for语句的应用)实验项目类型:验证性实验日期:2024年4月15日一、实验目的1.熟练掌握三种循环语句并能正确运用;2.能够用循环实现一些常用算法,如穷举法,迭代法,递推法等;3.进一步学习程序调试;4.了解中国算法,百钱买百鸡。二、实验硬、软件环境W......
  • c语言程序设计——实验报告五
    实验项目名称:实验5循环结构程序设计(while、do-while语句的应用)实验项目类型:验证性实验日期:2024年4月11日一、实验目的1.熟练掌握三种循环语句并能正确运用;2.能够用循环实现一些常用算法,如穷举法,迭代法,递推法等;3.进一步学习程序调试;4.了解中国算法,百钱买百鸡。二、实验......
  • NanoPi-NEO 全志H3移植Ubuntu 22.04 LTS、u-boot、Linux内核/内核树、mt7601u USB-Wi-
    前言想在NanoPi-NEO上开发屏幕驱动,但是看了下文件目录发现没有内核树,导致最基础的file_operations结构体都无法使用,于是寻找内核树安装方法。但官方提供的内核为4.14太旧了apt找不到对应的linux-source版本(其实后面发现不需要用apt,可以在kernel.org上下载,但反正都装了那就当学习......