大家好!今天和大家聊聊,为什么大模型都是decoder-only架构
目前主要的架构有3种:Bert为代表的encoder-only架构,ChatGLM为代表的encoder-decoder,以及GPT为代表的decoder-only
encoder-only采用的是masked token预训练,一般用于nlu任务。decoder-only采用next token预训练,天然适用生成任务。encoder-decoder兼顾理解和生成任务
我们需要弄清楚的是“encoder-decoder”为什么逐渐没有被采用
(一)直观感受
1、生成式任务就是,看到前文去生成后文,这与decoder-only架构是天然吻合的
2、与encoder-decoder相比,decoder-only架构简单,在相同参数量情况下,生成性能更好
(二)理论分析
1、满秩问题:encoder中的双向注意力矩阵存在低秩问题,会削弱模型表达能力。而decoder-only的注意力是满秩的下三角矩阵,建模能力更强。
2、预训练任务难度:decoder-only架构的预训练任务更难,模型足够大数据足够多的时候,模型学习到的能力就越大。decoderl-only是next token prediction预训练,每个位置接触到的信息更少,预测next token难度更高。
3、适合上下文学习:decoder-only架构比encoder-decoder在in-context learning上更有优势,decoder-only架构中prompt能够直接作用于decoder的每一层参数。
(三)工业界原因
1、效率优势:decoder-only一直复用KV Cache,对多轮对话更加友好
2、生态依赖:OpenAI的GPT系列已经证明了decoder-only架构的成功,大模型的生态中,decoderl-only架构形成了先发优势
这是一个开放性问题,目前并没有系统的实验证据表明decoder-only就一定比encoder-decoder架构好,还值得继续研究
如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
标签:架构,AI,模型,encoder,only,decoder From: https://blog.csdn.net/2401_85390073/article/details/144104525