首页 > 其他分享 >[论文速览] Small-scale proxies for large-scale Transformer training instabilities

[论文速览] Small-scale proxies for large-scale Transformer training instabilities

时间:2024-06-18 16:54:54浏览次数:23  
标签:logit loss Transformer scale training qk layernorm

Pre

title: Small-scale proxies for large-scale Transformer training instabilities
source: ICLR 2024
paper: https://arxiv.org/abs/2309.14322
code:
ref: 小尺度Transformer如何Scale

Idea

这篇文章想通过小模型来研究大模型(Transformer)训练不稳定的原因

Method(Model)

图1 橙色的是不使用Qk-layernorm,蓝色则是启用,N是参数量,LR sensitivity是作者提出用于衡量学习率变化时与最优值的预期偏差,越小越好,qk-layernorm可以减低但无法阻止该值随着参数量增加而上涨。

注:qk-layernorm就是在qk相乘之前对二者分别做一次layernorm

图2 研究不同参数量和学习率设置下 attention logit 增长的不稳定性,这里的attention logits 就是z,是qk相乘后还没过softmax的结果。

图3 输出logit发散不稳定的例子,实线使用了z-loss,效果明显比weight decay(权重衰减来得好)

输出logit一般先过softmax得到类别概率,而作者说不稳定性是由于logit发散且变成比较小的负数,通过将softmax的分母记为Z,z-loss就是 log Z的平方。

Critique

qk-layernorm, z-loss 有用
论文挺长,后面还有Warm-up什么的,有机会再看

标签:logit,loss,Transformer,scale,training,qk,layernorm
From: https://www.cnblogs.com/Stareven233/p/18254535

相关文章

  • AI绘画Stable Diffusion 挽救渣图的神器—Loopback Scaler脚本,你值得拥有!
    大家好,我是向阳今天这篇文章就是围绕着开局的这两张原图开始的。在Stablediffusion甚至当前所有的AI画图工具里面,AI生成内容随机性都是一个很大的问题。我们经常遇到一张图构图不错但是脸崩了,又或者人物形象不错但是背景画得崩了这样的问题。前者我们往往把图扔到图生......
  • Transformer预测 | 基于Transformer的风电功率多变量时间序列预测(Matlab)
    文章目录预测效果文章概述模型描述程序设计参考资料预测效果文章概述Transformer预测|基于Transformer的风电功率多变量时间序列预测(Matlab)Transformer模型本质上都是预训练语言模型,大都采用自监督学习(Self-supervisedlearning)的方式在......
  • Transformer预测 | 基于Transformer的光伏功率多变量多步预测(Matlab)
    文章目录预测效果文章概述模型描述程序设计参考资料预测效果文章概述Transformer预测|基于Transformer的光伏功率多变量多步预测(Matlab)Transformer模型本质上都是预训练语言模型,大都采用自监督学习(Self-supervisedlearning)的方式在大量......
  • Transformer预测 | 基于Transformer的股票价格预测(Matlab)
    文章目录预测效果文章概述模型描述程序设计参考资料预测效果文章概述Transformer预测|基于Transformer的股票价格预测(Matlab)Transformer模型本质上都是预训练语言模型,大都采用自监督学习(Self-supervisedlearning)的方式在大量生语料上进......
  • Transformer模型代码(详细注释,适合新手)
    #Hyperparametersbatch_size=4#Howmanybatchespertrainingstepcontext_length=16#Lengthofthetokenchunkeachbatchd_model=64#Thesizeofourmodeltokenembeddingsnum_blocks=8#Numberoftransformerblocksnum_heads=4#Numbe......
  • Structure-Aware Transformer for Graph Representation Learning
    目录概SAT代码ChenD.,O'BrayL.andBorgwardtK.Structure-awaretransformerforgraphrepresentationlearning.ICML,2022.概Graph+Transformer+修改attention机制.SATTransformer最重要的就是attention机制:\[\text{Attn}(x_v)=\sum_{v\in......
  • Illustrated Transformer笔记
    AttentionIsAllYouNeed编码器端Self-attention层用处:将对其他相关单词的“理解”融入我们当前正在处理的单词的方法,类似于RNN通过保持隐藏状态让RNN将其已处理的先前单词/向量的表示与当前正在处理的单词/向量结合起来将单词输入转化为Embedding之后,将Embedding和QKV......
  • 回归预测 | Matlab实现Transformer多输入单输出回归预测
    回归预测|Matlab实现Transformer多输入单输出回归预测目录回归预测|Matlab实现Transformer多输入单输出回归预测效果一览基本介绍程序设计参考资料效果一览基本介绍1.Matlab实现Transformer多变量回归预测;2.运行环境为Matlab2023b;3.输入多个特征,输......
  • 用人话解释 Transformer 的执行过程
     1.向量化。文本→Tokenization(分词)→Embeddings(向量化)→模型 2.模型需要完整上下文且知道token的相对位置及关系。 3.关注token的score。 4.用输入文本的向量,去查找,得到值向量。 5.得到上下文感知的向量。 在线拾取图片颜色图片......
  • 【基于Transformer的多输出数据回归预测】附核心代码讲解及核心源码
    文章目录前言Transformer模型结构概览代码模块解释模块功能详解总结前言  在深度学习领域,Transformer模型以其独特的机制和优越的性能在自然语言处理(NLP)任务中占据了主导地位。这里我们提供了一个简化版的Transformer模型的实现,让你在一分钟内快速理解并上手Tra......