首页 > 其他分享 >1000层的Transformer,诞生了!

1000层的Transformer,诞生了!

时间:2023-04-21 13:33:33浏览次数:60  
标签:Transformer 训练 诞生 DeepNorm 模型 DeepNet LN 1000


卖萌屋今日学术精选

大家好,我是卖萌酱。

今天下午卖萌屋作者群里一位MILA实验室的大佬在临睡前(蒙特利尔时间凌晨0点半)甩出来一篇论文:


1000层的Transformer,诞生了!_java

大佬表示太困了,肝不动了,于是卖萌酱左手抄起一罐咖啡,右手接过论文就开始肝了,必须第一时间分享给卖萌屋的读者小伙伴们!

论文链接:
https://arxiv.org/pdf/2203.00555.pdf

首先,把Transformer模型训深最大的问题是什么?

耗显存?

训练慢?

都不是!最大的问题是压根就不收敛啊...

所以这篇论文最关键的贡献就是提出了一种新的Normalization方式——DeepNorm,有效解决了Transformer训练困难的问题。

其实早在2019年,就有研究者针对Transformer训练困难的问题,提出了Pre-LN来提升Transformer的训练稳定性,但是随后有人发现,Pre-LN会导致模型底层的梯度比顶层的还要大,这显然是不合理的,因此往往训练出的模型效果不如传统的Post-LN。

尽管后续也有一些补丁来试图解决这些问题,但这些既有的尝试都只能让Transformer的模型深度最多训练到几百层,始终无法突破千层的天花板。

本文提出的DeepNorm,则成功打破了这个天花板。


1000层的Transformer,诞生了!_java_02

DeepNorm

从以上DeepNorm伪代码实现中,可以看到这确实是simple but effective的方法,作者也给出了几个不同场景下的参数经验取值。

效果层面,作者在机器翻译benchmark上做了实验:


1000层的Transformer,诞生了!_深度学习_03

可以看到随着模型深度从10层到100层再到1000层,机器翻译BLEU指标持续上升。


1000层的Transformer,诞生了!_人工智能_04

而在与前人工作的比较上,200层的DeepNet(3.2B参数量)比Facebook M2M 48层的矮胖大模型(12B参数量)有足足5个点的BLEU值提升。

此外,作者表示将来会尝试将DeepNet往更多NLP任务上迁移(包括预训练语言模型),期待DeepNet能给NLP带来下一波春天!


标签:Transformer,训练,诞生,DeepNorm,模型,DeepNet,LN,1000
From: https://blog.51cto.com/xixiaoyao/6212616

相关文章

  • Swin Transformer
    22年初的屠榜模型题目:用了移动窗口的层级式的visiontransformer摘要:Swintransformer可以作为CV中通用骨干网络。与NLP不同的第一个是对象尺度的问题,第二是多次提到的分辨率太大的问题,之前工作已经用很多办法减少过输入模型的序列长度。移动窗口可以让每次只计算一个窗口内的自......
  • 龙芯派二代2k1000la开发——交叉编译环境搭建(C/C++和Qtcreator)
    龙芯派二代2k1000la开发——交叉编译环境搭建(C/C++和Qtcreator)一、下载脚本文件这个脚本文件可以在龙芯技术支持QQ群中找到二、编译C/C++程序在下载目录下执行该脚本./poky-glibc-x86_64-my-qt5-image-loongarch64-ls3a5000-toolchain-3.3+snapshot.shBash设置环境变量source/opt......
  • 发布三个月跳水超1000!苹果M2版Mac mini降到3478元了
    快科技4月18日消息,苹果在今年1月17日晚,在官网上架了新款的Macmini,搭载了M2芯片,起售价4499元。当时该产品配合上教育优惠,一度被认为是“香爆了”的产品,如今距离发布刚好三个月时间,其价格在电商平台却直接跳水千元。根据拼多多百亿补贴频道显示,苹果M2版Macmini如今售价只要3478......
  • vscode number of cursors limited to 10000 bug All In One
    vscodenumberofcursorslimitedto10000bugAllInOnevscode全局替换光标限制最多10000个❌demos$manopenssl>man-openssl.md#全选"替换,报错提示信息❌#❌$openssl--version#✅$opensslversionLibreSSL3.3.6(......
  • js方法实现 10+ 100+ 1000+ 10000+
    将数字类型优化12=>10+120=>100+1200=>1000+10以内不管调用后赋值进行数字化item.read_num=Number(util.picture(item.read_num))直接cv代码数字优化自己调用定义函数**//浏览量优化functionpicture(num){if(num<10){returnnum;}va......
  • AgentGPT实战:ChatGPT如何在7天之内用100美元赚到1000美元
    本文是使用AgentGPT来实现如何在7天之内用100美元赚到1000美元,AgentGPT能在没有人工协助的情况下处理多个领域的一系列任务,可以说它重新定义我们与AI技术的交互方式。AgentGPT的官方网站为https://agentgpt.reworkd.ai/以下是AgentGPT执行过程:......
  • Maui安卓调试时部署报错:ADB1000
    突发情况,于是重新建了个项目,什么都没动的直接选择安卓仿真器。点击部署。于是等了半天,打开仿真器变慢了。部署也变慢了,CPU直接嗷嗷响,温度瞬间直飙80多度。接着仿真器是打开了,但一直都是黑屏。然后就是一个报错。报错内容: 错误ADB1000:System.IO.FileNotFoundException:......
  • CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropK
    前言 美图影像研究院(MTLab)与中国科学院大学突破性地提出正则化方法DropKey,用于缓解VisionTransformer中的过拟合问题。该方法通过在注意力计算阶段随机drop部分Key以鼓励网络捕获目标对象的全局信息,从而避免了由过于聚焦局部信息所引发的模型偏置问题,继而提升了基于Tra......
  • UVa 10004 Bicoloring (DFS&二分图)
    10004-BicoloringTimelimit:3.000secondshttp://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&category=24&page=show_problem&problem=945In1976the``FourColorMapTheorem"wasprovenwiththeassistanceofacomput......
  • ViT-Adapter:用于密集预测任务的视觉 Transformer Adapter
    前言 这篇文章提出了一种用于使得ViT架构适配下游密集预测任务的Adapter。简单的ViT模型,加上这种Adapter之后,下游密集预测任务的性能变强不少。本文给出的ViT-Adapter-L在COCO数据集上达到了60.9的boxAP和59.3的maskAP。本文转载自极市平台作者|CV开发者......