• 2024-07-01batchNorm和 layerNorm的区别
    LayerNormalization(层归一化)和BatchNormalization(批量归一化)都是深度学习中常用的归一化技术,用于加速训练过程和改善模型性能。它们的主要区别在于归一化的方式和应用的场景。BatchNormalization(批量归一化):归一化方式:BatchNormalization对每个特征在小批量数据上进行归一
  • 2024-06-18[论文速览] Small-scale proxies for large-scale Transformer training instabilities
    Pretitle:Small-scaleproxiesforlarge-scaleTransformertraininginstabilitiessource:ICLR2024paper:https://arxiv.org/abs/2309.14322code:ref:小尺度Transformer如何ScaleIdea这篇文章想通过小模型来研究大模型(Transformer)训练不稳定的原因Method(Model)图
  • 2024-06-06【机器学习】GLM4-9B-Chat大模型/GLM-4V-9B多模态大模型概述、原理及推理实战
    ​​​​​​​目录一、引言二、模型简介2.1GLM4-9B 模型概述2.2GLM4-9B 模型架构三、模型推理3.1GLM4-9B-Chat语言模型3.1.1 model.generate 3.1.2 model.chat3.2GLM-4V-9B多模态模型3.2.1多模态模型概述3.2.2 多模态模型实践四、总结 一、引言
  • 2024-05-30大模型中用到的归一化方法总结
    大模型中的归一化主要是为了解决LLM训练不稳定的问题LLM中归一化方法可以按照归一化方法来分,主要分为LayerNorm,BatchNorm,RMSNorm以及DeepNorm按照归一化位置来分类,包括postNorm和preNorm1.BatchNormBatchNorm主要对数据的一定的特征维度在batch数据中进行归一,一般来说应用
  • 2024-03-224.transformer
    建议直接看参考的知乎链接,我这是一坨1.encorder\[\mathrm{LayerNorm}\big(X+\mathrm{MultiHeadAttention}(X)\big)\]\[\mathrm{LayerNorm}\big(X+\mathrm{Feed}\mathrm{Forward}(X)\big)\]\[\mathrm{FeedForward}(X)=\max(0,XW_1+b_1)W_2+b_2\]做layernorm而不是batchnor
  • 2024-03-03为什么Transformer块使⽤LayerNorm⽽不是BatchNorm?
    个人学习使用,侵权删参考来源:为什么Transformer要用LayerNorm为什么Transformer模型使用layernorm而不是batchnormtransformer为什么使用layernormalization,而不是其他的归一化方法?
  • 2024-02-02为什么llama用RMSnorm而不是layernorm
    来源:Llama美洲鸵(大羊驼)改进之一:均方层归一化RMSNorm-CSDN博客 
  • 2023-12-18LayerNorm 等其他归一化
    LayerNorm等其他归一化目录LayerNorm等其他归一化总览BatchNormLayerNorm计算过程LN优缺点用法上的差异transformer为什么使用layernormInstanceNorma,INGroupNorma,GNBNLNINGN的区别参考资料:总览BatchNorm:沿batch方向上,对(N、H、W)做归一化,保留通道C的维度