首页 > 其他分享 >【T5中的激活函数】GLU Variants Improve Transformer

【T5中的激活函数】GLU Variants Improve Transformer

时间:2024-04-04 20:58:05浏览次数:32  
标签:Transformer 函数 T5 GLU W2 激活 Variants xV xW

【mT5中的激活函数】GLU Variants Improve Transformer

论文信息

名称内容
论文标题GLU Variants Improve Transformer
论文地址https://arxiv.org/abs/2002.05202
发表时间2020-02-12
研究领域NLP, 激活函数, FNN
提出方法GEGLU(激活函数)

阅读评价

  论文在各种激活函数之间做了对比实验,探究应用不同激活函数的FNN对T5模型的影响。最终GEGLU效果最好。

  个人感受:只能说太细了!真是不给其他人一点活路,连激活函数他都要做个实验取个最好的。


  以下是对论文每个部分的简单介绍。

Abstract

  门控线性单元(Gated Linear Units, GLU)由两个线性投影的分量乘积组成,其中一个投影首先通过sigmoid函数。对于GLU中的激活函数,也是调参中的一个点。论文在FFN中应用了GLU的一些变体,发现其中一些变体的质量优于通常使用的ReLUGELU激活。

Introduction

  介绍了四种基于不同激活函数的FFN。

  Transformer 论文中提出的前馈网络(Feed-Forward Network, FNN)是一个两层的全连接神经网络,它在 Transformer 模型中起到了重要的作用。这个网络的结构是:

F F N ( x , W 1 , W 2 , b 1 , b 2 ) = m a x ( 0 , x W 1 + b 1 ) W 2 + b 2 FFN(x, W_1, W_2, b_1, b_2) = max(0, xW_1 + b_1)W_2 + b_2 FFN(x,W1​,W2​,b1​,b2​)=max(0,xW1​+b1​)W2​+b2​

  其中, x x x 是输入, W 1 W_1 W1​ 和 W 2 W_2 W2​ 是权重矩阵, b 1 b_1 b1​ 和 b 2 b_2 b2​ 是偏置向量。这个公式首先通过一个线性变换 x W 1 + b 1 xW_1 + b_1 xW1​+b1​,然后通过ReLU激活函数,最后再通过另一个线性变换 W 2 W_2 W2​ 和偏置 b 2 b_2 b2​。

  在 T5 论文中,作者对前馈网络进行了一些调整,取消了偏置项。这样做的目的是为了简化模型和提高训练效率。调整后的前馈网络结构是:

F F N R e L U ( x , W 1 , W 2 ) = m a x ( 0 , x W 1 ) W 2 FFN_{ReLU}(x, W_1, W_2) = max(0, xW_1)W_2 FFNReLU​(x,W1​,W2​)=max(0,xW1​)W2​

  这个公式中,去掉了偏置项 b 1 b_1 b1​ 和 b 2 b_2 b2​,只保留了ReLU激活函数和两个权重矩阵。

  除了ReLU激活函数,还有一些其他的激活函数被用于前馈网络中。例如,基于高斯误差函数的激活函数GELU可以用于前馈网络,其结构是:

F F N G E L U ( x , W 1 , W 2 ) = G E L U ( x W 1 ) W 2 FFN_{GELU}(x, W_1, W_2) = GELU(xW_1)W_2 FFNGELU​(x,W1​,W2​)=GELU(xW1​)W2​

  GELU激活函数可以更好地模拟神经网络的随机正则化行为,从而提高模型的性能。

  另一个被用于前馈网络的激活函数是SwishSwish激活函数是一个自门控的激活函数,它可以自动调节每个神经元的输出。基于Swish激活函数的前馈网络结构是:
F F N S w i s h ( x , W 1 , W 2 ) = S w i s h ( x W 1 ) W 2 FFN_{Swish}(x, W_1, W_2) = Swish(xW_1)W_2 FFNSwish​(x,W1​,W2​)=Swish(xW1​)W2​

  Swish激活函数在某些情况下可以提高神经网络的性能,因此在设计前馈网络时,可以根据具体的应用场景选择合适的激活函数。

【注】为什么FNN里面要有激活函数?
————————————
答:1)提供非线性拟合能力,没有激活函数的模型只是线性层的累加。2)部分激活函数如ReLU能够缓解梯度消失问题,加快模型速度。

Gated Linear Units (GLU) and Variants

  GLU的公式为:

G L U ( x , W , V , b , c ) = σ ( x W + b ) ⊗ ( x V + c ) GLU(x, W, V, b, c) = σ(xW + b) ⊗ (xV + c) GLU(x,W,V,b,c)=σ(xW+b)⊗(xV+c)

  在GLU的基础上,取消激活函数,称之为BilinearBilinear公式为:

B i l i n e a r ( x , W , V , b , c ) = ( x W + b ) ⊗ ( x V + c ) Bilinear(x, W, V, b, c) = (xW + b) ⊗ (xV + c) Bilinear(x,W,V,b,c)=(xW+b)⊗(xV+c)

  因此在GLU的基础上,作者认为可以产生以下变体:

R e G L U ( x , W , V , b , c ) = m a x ( 0 , x W + b ) ⊗ ( x V + c ) G E G L U ( x , W , V , b , c ) = G E L U ( x W + b ) ⊗ ( x V + c ) S w i G L U ( x , W , V , b , c , β ) = S w i s h β ( x W + b ) ⊗ ( x V + c ) ReGLU(x, W, V, b, c) = max(0, xW + b) ⊗ (xV + c) \\ GEGLU(x, W, V, b, c) = GELU(xW + b) ⊗ (xV + c) \\ SwiGLU(x, W, V, b, c, β) = Swishβ(xW + b) ⊗ (xV + c) ReGLU(x,W,V,b,c)=max(0,xW+b)⊗(xV+c)GEGLU(x,W,V,b,c)=GELU(xW+b)⊗(xV+c)SwiGLU(x,W,V,b,c,β)=Swishβ(xW+b)⊗(xV+c)

  基于上述的激活函数,产生以下FNN变体:

F F N G L U ( x , W , V , W 2 ) = ( σ ( x W ) ⊗ x V ) W 2 F F N B i l i n e a r ( x , W , V , W 2 ) = ( x W ⊗ x V ) W 2 F F N R e G L U ( x , W , V , W 2 ) = ( m a x ( 0 , x W ) ⊗ x V ) W 2 F F N G E G L U ( x , W , V , W 2 ) = ( G E L U ( x W ) ⊗ x V ) W 2 F F N S w i G L U ( x , W , V , W 2 ) = ( S w i s h 1 ( x W ) ⊗ x V ) W 2 FFN_{GLU}(x, W, V, W_2) = (σ(xW ) ⊗ xV )W_2\\ FFN_{Bilinear}(x, W, V, W_2) = (xW ⊗ xV )W_2\\ FFN_{ReGLU}(x, W, V, W_2) = (max(0, xW ) ⊗ xV )W_2\\ FFN_{GEGLU}(x, W, V, W_2) = (GELU(xW ) ⊗ xV )W_2\\ FFN_{SwiGLU}(x, W, V, W_2) = (Swish_1(xW ) ⊗ xV )W_2 FFNGLU​(x,W,V,W2​)=(σ(xW)⊗xV)W2​FFNBilinear​(x,W,V,W2​)=(xW⊗xV)W2​FFNReGLU​(x,W,V,W2​)=(max(0,xW)⊗xV)W2​FFNGEGLU​(x,W,V,W2​)=(GELU(xW)⊗xV)W2​FFNSwiGLU​(x,W,V,W2​)=(Swish1​(xW)⊗xV)W2​

Experiments on Text-to-Text Transfer Transformer (T5)

在这里插入图片描述

图1 基于不同FNN的T5模型在段落填充任务上的困惑度

  如图1,GEGLUSwiGLU表现最好。

在这里插入图片描述

图2 基于不同FNN的T5模型在GLUE任务上的结果

  如图2,GLU家族表现最好。

在这里插入图片描述

图3 基于不同FNN的T5模型在SuperGLUE任务上的结果

  如图3,GLU家族表现最好。

Conclusion

【注】建议读下这部分的原文,乐死。以下是原段落:

We have extended the GLU family of layers and proposed their use in Transformer. In a transfer-learning setup, the new variants seem to produce better perplexities for the de-noising objective used in pre-training, as well as better results on many downstream language-understanding tasks. These architectures are simple to implement, and have no apparent computational drawbacks. We offer no explanation as to why these architectures seem to work; we attribute their success, as all else, to divine benevolence(上帝的仁慈).

标签:Transformer,函数,T5,GLU,W2,激活,Variants,xV,xW
From: https://blog.csdn.net/qq_43592352/article/details/137381503

相关文章

  • 神经网络算法:一文搞懂BERT(基于Transformer的双向编码器)
    本文将从BERT的本质、BERT的原理、BERT的应用三个方面,带您一文搞懂BidirectionalEncoderRepresentationsfromTransformers|BERT。GoogleBERT一、BERT的本质BERT架构:一种基于多层Transformer编码器的预训练语言模型,通过结合Tokenization、多种Embeddings和特定任......
  • GPT4不限制使用次数了!GPT5即将推出了!
    今天登录到ChatGPTPlus账户,出现了如下提示:已经没有了数量和时间限制的提示。更改前:每3小时限制40次(团队计划为100次);更改后:可能会应用使用限制。GPT-4放开限制身边订阅了ChatGPTPlus的朋友也发现了有ChatGPT里的GPT-4,也变成了上面的情况。网络上也有人很多人反......
  • Transformer模型-Positional Encoding位置编码的简明介绍
    今天介绍transformer模型的positionalencoding 位置编码背景位置编码用于为序列中的每个标记或单词提供一个相对位置。在阅读句子时,每个单词都依赖于其周围的单词。例如,有些单词在不同的上下文中具有不同的含义,因此模型应该能够理解这些变化以及每个单词所依赖的上下文。......
  • PyQt5 GUI编程(QMainWindow与QWidget模块结合使用)
    一.简介QWidget是所有用户界面对象的基类,而QMainWindow用于创建主应用程序窗口的类。它是QWidget的一个子类,提供了创建具有菜单栏、工具栏、状态栏等的主窗口所需的功能。上篇主要介绍了基本使用,创建窗口时都是继承单个模块,本章主要介绍下两个模块的结合使用。二.具体用法1.我......
  • 记录解决QT环境变量、qwt环境搭建、cannot load QT5core.dll错误、TreeWidget与TabWid
    一、配置QT环境变量:依次打开:设置->系统->关于->高级系统设置->环境变量->系统变量(s)->Path->编辑,将QT安装目录中以下文件路径复制粘贴至Path中:D:\BaiDuWangPan\SoftWare\QT_551\5.5\mingw492_32\binD:\BaiDuWangPan\SoftWare\QT_551\Tools\mingw492_32\bin相关解决方法可借鉴......
  • VS2022+QT5.14.2开发VS QT Tool的使用
    1.安装环境vs2022+QT5.14.2qtvstool(vsaddin)的使用遇到的坑1.安装qt-vsaddin-msvc2022-3.0.2.vsix安装失败2.安装qt-vsaddin-msvc2022-2.8.0.vsix在qtSetting->qtmodels模块管理中,没有Selectmodel的功能选项如下图位置3.卸载版本vsaddin_2.8.0后安装qt-vsaddin-msvc2......
  • GEE C22-23 探索矢量、栅格/矢量转换(part5)
     Part1探索矢量一、在GEE中使用几何工具创建要素 二、加载现有的特征和特征集合在地球varroi=table;//vartiger=ee.FeatureCollection('TIGER/2010/Blocks');//Addthenewfeaturecollectiontothemap,butdonotdisplay.Map.addLayer(roi,{'color'......
  • debian10安装qt5库,解决安装ibudev-dev会卸载桌面和网络管理问题。以及libc6-dbg安装同
    直接使用sudoaptinstalllibudev-dev 命令安装会有问题。问题现象和根因:安装libudev-dev会卸载gdm3,network-manager等。继续执行它会卸载网络服务,桌面环境等,重启后黑屏。解决:使用aptitude安装。sudoaptinstallaptitudesudoaptitudeinstalllibudev1=241-7~deb10u10......
  • Transformer学习-最简DEMO实现字符串转置
    Transformer学习-最简DEMO实现字符串转置一.代码二.参考三.输出背景:调试AI加速卡在Pytorch训练时的精度问题,搭建了一个简单的Transformer,设置随机种子,保证每次重训练loss完全一致,可以直接对比各算子的计算误差一.代码importosimportrandomimportnumpya......
  • 蓝桥杯T5合根植物——并查集模板题
    5.合根植物-蓝桥云课(lanqiao.cn) #include<bits/stdc++.h>usingnamespacestd;intm,n,pre[1000000];set<int>s;intfind(intx){if(pre[x]==x)returnx;returnfind(pre[x]);}intmain(){//请在此输入您的代码cin>>m>>......