LayerNorm

2024-07-01batchNorm和 layerNorm的区别
LayerNormalization（层归一化）和BatchNormalization（批量归一化）都是深度学习中常用的归一化技术，用于加速训练过程和改善模型性能。它们的主要区别在于归一化的方式和应用的场景。BatchNormalization（批量归一化）：归一化方式：BatchNormalization对每个特征在小批量数据上进行归一
2024-06-18[论文速览] Small-scale proxies for large-scale Transformer training instabilities
Pretitle:Small-scaleproxiesforlarge-scaleTransformertraininginstabilitiessource:ICLR2024paper:https://arxiv.org/abs/2309.14322code:ref:小尺度Transformer如何ScaleIdea这篇文章想通过小模型来研究大模型（Transformer）训练不稳定的原因Method（Model）图
2024-06-06【机器学习】GLM4-9B-Chat大模型/GLM-4V-9B多模态大模型概述、原理及推理实战
目录一、引言二、模型简介2.1GLM4-9B 模型概述2.2GLM4-9B 模型架构三、模型推理3.1GLM4-9B-Chat语言模型3.1.1 model.generate 3.1.2 model.chat3.2GLM-4V-9B多模态模型3.2.1多模态模型概述3.2.2 多模态模型实践四、总结一、引言
2024-05-30大模型中用到的归一化方法总结
大模型中的归一化主要是为了解决LLM训练不稳定的问题LLM中归一化方法可以按照归一化方法来分，主要分为LayerNorm，BatchNorm，RMSNorm以及DeepNorm按照归一化位置来分类，包括postNorm和preNorm1.BatchNormBatchNorm主要对数据的一定的特征维度在batch数据中进行归一，一般来说应用
2024-03-224.transformer
建议直接看参考的知乎链接，我这是一坨1.encorder\[\mathrm{LayerNorm}\big(X+\mathrm{MultiHeadAttention}(X)\big)\]\[\mathrm{LayerNorm}\big(X+\mathrm{Feed}\mathrm{Forward}(X)\big)\]\[\mathrm{FeedForward}(X)=\max(0,XW_1+b_1)W_2+b_2\]做layernorm而不是batchnor
2024-03-03为什么Transformer块使⽤LayerNorm⽽不是BatchNorm？
个人学习使用，侵权删参考来源：为什么Transformer要用LayerNorm为什么Transformer模型使用layernorm而不是batchnormtransformer为什么使用layernormalization，而不是其他的归一化方法？
2024-02-02为什么llama用RMSnorm而不是layernorm
来源：Llama美洲鸵（大羊驼）改进之一：均方层归一化RMSNorm-CSDN博客
2023-12-18LayerNorm 等其他归一化
LayerNorm等其他归一化目录LayerNorm等其他归一化总览BatchNormLayerNorm计算过程LN优缺点用法上的差异transformer为什么使用layernormInstanceNorma,INGroupNorma,GNBNLNINGN的区别参考资料：总览BatchNorm：沿batch方向上，对(N、H、W)做归一化，保留通道C的维度