首页 > 其他分享 >大模型核心技术原理 Transformer架构详解

大模型核心技术原理 Transformer架构详解

时间:2024-08-08 14:59:03浏览次数:20  
标签:Transformer 架构 AI 模型 学习 详解 GPT

在大模型发展历程中,有两个比较重要点:第一,Transformer 架构。它是模型的底座,但 Transformer 不等于大模型,但大模型的架构可以基于 Transformer;第二,GPT。严格意义上讲,GPT 可能不算是一个模型,更像是一种预训练范式,它本身模型架构是基于 Transformer,但 GPT 引入了“预测下一个词”的任务,即不断通过前文内容预测下一个词。之后,在大量的数据上进行学习才达到大模型的效果。

之所以说 Transformer 架构好,是因为 Transformer 能够解决之前自然语言处理中最常用的 RNN 的一些核心缺陷,具体来看:一是,难以并行化,反向传播过程中需要计算整个序列;二是,长时依赖关系建模能力不够强;三是,模型规模难以扩大。

那么,Transformer 具体是如何工作的?

首先,是对输入进行标识符化,基于单词形式,或字母,或字符子串,将输入文本切分成几个 token,对应到字典中的 ID 上,并对每个 ID 分配一个可学习的权重作为向量表示,之后就可以针对做训练,这是一个可学习的权重。

在输入 Transformer 结构之后,其核心的有自注意力模块和前向传播层。而在自注意力模块中,Transformer 自注意力机制建模能力优于 RNN 序列建模能力。因此,有了 Transformer 架构后,基本上就解决了运行效率和训练很大模型的问题。

基于 Transformer 架构的主流语言大模型主要有几种:
file

一是,自编码模型,如 BERT,简单讲就是给到一句话,然后把这句话的内容挖空,当问及挖空的内容时,就把内容填回去,这其实是典型地用来做一个自然语言理解的任务,但做生成任务是非常弱的;

二是,自回归模型,如 GPT,它是通过不断地预测下一个词,特点是只能从左到右生成,而看不到后面的内容。GPT-1 最后接了一个 Linear 层做分类或选题题等任务,到了 GPT-2 ,已经将一些选择任务或者分类任务全部都变成文本任务,统一了生成的范式;

三是,编码器-解码器模型,如 T5,它的输入和输出是分为比较明显的两块内容,或者是问答式,或者序列到序列的转换型的任务;

四是,通用语言模型,如 GLM,该模型结合了自回归和自编码两种形式的模型,举个例子,“123456”是一串输入的序列,现在把 “3”、“5”、“6” 挖空,让模型去学习,那么,挖空以后换成一个 “ mask token” 告诉模型这个地方遮掉了一些内容,现在需要去预测出来遮掉的内容。

与 BERT 不同的是,GLM 把自回归和自编码方式进行结合后,挖出来的内容直接拼到了文本的后面,然后加上一个 “ start token”,告诉模型现在是开始生成了,开始做填空任务了,然后把标准答案 “5”、“6” 放在 “ star token”后面让它去预测,直到预测到 “end token”,它就知道这个填空已经结束了。这个过程称为自回归填空式的任务,整个计算流程还是自回归式,但它不断预测下一个词,既实现了填空的功能,又能看到上下文内容。此外,相比于 GPT 模型,GLM 采用了一个双向注意力的机制。

国产AI辅助编程工具CodeGeeX。
CodeGeeX 也是一个使用AI大模型为基座的辅助编程工具,帮助开发人员更快的编写代码。可以自动完成整个函数的编写,只需要根据注释或Tab按键即可。它已经在Java、JavaScript和Python等二十多种语言上进行了训练,并基于大量公开的开源代码、官方文档和公共论坛上的代码来优化自己的算法。CodeGeeX 作为一款中国原创的AI辅助编程工具,现在免费提供给所有开发者使用,同时完全开源,程序员使用普遍认为编写代码的效率提升2倍以上。

最近功能上新非常快,比如刚刚更新的“Ask CodeGeeX”功能,是将智能问答模式,融合到实际开发场景中,让开发者更专注和沉浸于编程,不用离开当前 IDE 的编程环境,就可以边写代码边和 AI 对话,实现针对编程问题的智能问答。无需waitlist,立刻就能尝鲜这个新功能!

那么就先给大家快速看看,在CodeGeeX上的体验是怎样的:
file

file

在大模型时代,编程推荐各位下载使用AI辅助编程工具 CodeGeeX

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

标签:Transformer,架构,AI,模型,学习,详解,GPT
From: https://blog.csdn.net/2401_85280106/article/details/141026780

相关文章

  • Mybatis详解
    MyBatis一、MyBatis概述1.MyBatis介绍2.依赖介绍二、工程搭建1.工程依赖2.配置文件3.映射文件4.MybatisAPISqlSession直接执行SQL5.代理实例三、配置文件1.属性(properties)2.设置(settings)3.类型别名(typeAliases)4.类型处理器(typeHandlers)常见类型......
  • 京东小程序数据中心架构设计与最佳实践
    一、京东小程序是什么京东小程序平台能够提供开放、安全的产品,成为品牌开发者链接京东内部核心产品的桥梁,致力于服务每一个信任我们的外部开发者,为不同开发能力的品牌商家提供合适的服务和产品,让技术开放成为品牌的新机会。“OnceBuild,RunAnywhere”,一个小程序可以在多个A......
  • 架构师与普通程序员的区别
    引言在软件开发行业中,架构师和普通程序员是两个重要但角色和职责截然不同的职位。本文将深入探讨架构师和普通程序员的区别,包括他们的职责、技能要求、工作方式以及职业发展路径。一、架构师的角色和职责1.系统设计和架构架构师主要负责系统的整体设计和架构,他们需要制定......
  • Spring格式化转换服务详解
    Spring格式化转换服务详解在Spring框架中,数据转换是一个常见的需求,尤其是在处理Web应用程序时。Spring提供了一个强大的转换服务ConversionService,它允许开发者自定义类型之间的转换规则。本文将通过一个具体的示例,详细解释如何在Spring应用程序中使用DefaultFormattingCon......
  • Spring Bean注册与配置详解
    SpringBean注册与配置详解在Spring框架中,Bean的注册与配置是一个核心概念。本文将深入探讨如何使用JavaConfig结合@ComponentScan来灵活地注册和管理SpringBeans。通过实际代码示例,我们将一步步了解Spring的组件扫描机制,以及如何利用不同的注解来定义Bean的作用域和行为......
  • Spring Boot 整合 SA-Token 使用详解
    SpringBoot整合SA-Token使用详解在现代Web开发中,用户认证与授权是构建安全应用的基础。SA-Token是一个轻量级的Java权限认证框架,它以其简洁的API设计、高效的执行效率以及丰富的功能特性,成为了众多开发者在SpringBoot项目中实现用户认证与授权的首选方案。本文将详细......
  • Postman接口测试工具详解
    引言随着互联网技术的不断发展,API(应用程序接口)在现代软件开发中的地位愈发重要。API连接了不同的软件系统,允许它们之间进行数据交换和功能调用。为了确保API的正确性和可靠性,进行全面的测试至关重要。Postman作为一个流行的API开发和测试工具,以其直观的用户界面和强大的......
  • 计算机毕业设计-基于Java+SSM架构的珠宝首饰交易平台系统项目开发实战(附源码+论文)
    大家好!我是程序员一帆,感谢您阅读本文,欢迎一键三连哦。......
  • 地平线—征程2(Journey 2-J2)芯片详解(1)
    写在前面本系列文章主要讲解地平线征程2(Journey2-J2)芯片的相关知识,希望能帮助更多的同学了解和认识征程2(Journey2-J2)芯片。若有相关问题,欢迎评论沟通,共同进步。(*^▽^*)1.芯片概况1.1芯片介绍征程2(Journey2-J2)是地平线机器人公司研发的一款高性能、低功耗的人工智能......
  • vue3 setup语法糖详解与使用
    Vue3+TypeScript系列笔记6.setup语法糖详解与使用语法糖(SyntacticSugar),是由英国计算机科学家彼得·约翰·兰达(PeterJ.Landin)发明的一个术语。它指的是在计算机语言中添加的某种语法,这种语法对语言的编译结果和功能并没有实际影响,但却能更方便程序员使用该语言。简单来......