为什么大模型都是decoder-only架构？

时间：2024-11-28 10:34:41浏览次数：9

大家好！今天和大家聊聊，为什么大模型都是decoder-only架构
请添加图片描述

目前主要的架构有3种：Bert为代表的encoder-only架构，ChatGLM为代表的encoder-decoder，以及GPT为代表的decoder-only
encoder-only采用的是masked token预训练，一般用于nlu任务。decoder-only采用next token预训练，天然适用生成任务。encoder-decoder兼顾理解和生成任务

我们需要弄清楚的是“encoder-decoder”为什么逐渐没有被采用
（一）直观感受
1、生成式任务就是，看到前文去生成后文，这与decoder-only架构是天然吻合的
2、与encoder-decoder相比，decoder-only架构简单，在相同参数量情况下，生成性能更好
（二）理论分析
1、满秩问题：encoder中的双向注意力矩阵存在低秩问题，会削弱模型表达能力。而decoder-only的注意力是满秩的下三角矩阵，建模能力更强。
2、预训练任务难度：decoder-only架构的预训练任务更难，模型足够大数据足够多的时候，模型学习到的能力就越大。decoderl-only是next token prediction预训练，每个位置接触到的信息更少，预测next token难度更高。
3、适合上下文学习：decoder-only架构比encoder-decoder在in-context learning上更有优势，decoder-only架构中prompt能够直接作用于decoder的每一层参数。
（三）工业界原因
1、效率优势：decoder-only一直复用KV Cache，对多轮对话更加友好
2、生态依赖：OpenAI的GPT系列已经证明了decoder-only架构的成功，大模型的生态中，decoderl-only架构形成了先发优势

这是一个开放性问题，目前并没有系统的实验证据表明decoder-only就一定比encoder-decoder架构好，还值得继续研究

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

标签：架构,AI,模型,encoder,only,decoder
From： https://blog.csdn.net/2401_85390073/article/details/144104525

qiankun+vite+vue3从零搭建一个微前端架构系统
本文将记录一下从零搭建一个微前端架构系统，技术栈使用qiankun+vite+vue3，后面还会持续分享主应用与微应用通信，组件共享，性能优化等内容。qiankun官网：介绍-qiankun参考网站：MicroFrontends一、微前端架构介绍微前端是一种多个团队通过独立发布功能的方式来共同构建现......
3、Redis主从、哨兵与集群架构
Redis主从架构主从搭建步骤1、复制一份redis.conf文件2、将相关配置修改为如下值：port6380pidfile/var/run/redis_6380.pid#把pid进程号写入pidfile配置的文件logfile"6380.log"dir/usr/local/redis-5.0.3/data/6380#指定数据存放目录#需要注释掉bind#......
【系统架构设计师】真题论文: 论数据访问层设计技术及其应用（包括解题思路和素材）
更多内容请见：备考系统架构设计师-专栏介绍和目录文章目录真题题目（2016年试题3）解题思路论文素材参考（1）数据访问层设计JDBC技术（2）ORM框架技术-Hibernate（3）ORM框架技术-MyBatis（4）数据访问层设计模式-DAO模式（5）数据访问层设计模式-Repository模式......
JavaScript 设置 Cookie 中的 HttpOnly 标志为什么无法生效？
javascript设置cookie中的httponly为什么以下代码无法设置Cookie的HttpOnly标志？document.cookie='url=https://www.test.com/;expires=0;path=/;HttpOnly;';答案在客户端端（JavaScript）无法设置HttpOnly标志。HttpOnly标志必须在服务端添加。这一标志旨在防止客......
MCA架构师学员在北京，秋招收获京东物流offer，26.5k*16薪
MCA架构师学员在北京，秋招收获京东物流offer，26.5k*16薪！马士兵教育2024最新版MCA互联网高级架构师课程，Java进阶从0到年薪百万机会在等你！_哔哩哔哩_bilibili......
Python反爬虫系统架构设计》毕业设计项目
大家好我是蓝天，混迹在java圈的辛苦码农。今天要和大家聊的是一款《Python反爬虫系统架构设计》毕业设计项目。项目源码以及部署相关请联系蓝天，文末附上联系信息。......
新兴数据仓库设计与实践手册：从分层架构到实际应用（三）
本手册将分为三部分发布，以帮助读者逐步深入理解数据仓库的设计与实践。第一部分介绍数据仓库的整体架构概述；第二部分深入讨论ETL在数仓中的应用理论，ODS层的具体实现与应用；第三部分将围绕DW数据仓库层、ADS层和数据仓库的整体趋势展开；通过这样的结构，您可以系统地学习每一层次......
【论文投稿】嵌入式硬件设计 — 智能设备背后的隐形架构大师
【荣获中国科协认证-品牌会议】第五届机械工程、智能制造与自动化技术国际学术会议（MEMAT2024）_艾思科蓝_学术一站式服务平台更多学术会议论文投稿请看：https://ais.cn/u/nuyAF3目录引言一、嵌入式硬件设计概述（一）需求分析（二）硬件选型（三）电路设计（四）PCB制作与焊接（五）硬......
新兴数据仓库设计与实践手册：从分层架构到实际应用（三）
本手册将分为三部分发布，以帮助读者逐步深入理解数据仓库的设计与实践。第一部分介绍数据仓库的整体架构概述；第二部分深入讨论ETL在数仓中的应用理论，ODS层的具体实现与应用；第三部分将围绕DW数据仓库层、ADS层和数据仓库的整体趋势展开；通过这样的结构，您可以系统地学习每一层次......
MySQL报错：sql_mode=only_full_group_by解决方法
MySQL报错：sql_mode=only_full_group_by解决方法登录mysql之后，执行命令查看当前的sql_mode配置select@@global.sql_mode;可以发现MySQL的sql_mode是开启了ONLY_FULL_GROUP_NY。解决方法把sql_mode中的ONLY_FULL_GROUP_NY去掉，其他不变即可。找到MySQL的配置文件/......

为什么大模型都是decoder-only架构？

如何学习AI大模型？

相关文章

赞助商

阅读排行