RMSnorm

2024-11-29【NLP高频面题 - LLM架构篇】大模型为何使用RMSNorm代替LayerNorm？
【NLP高频面题-LLM架构篇】大模型为何使用RMSNorm代替LayerNorm？重要性：★★★
2024-09-22【面试经验】商汤NLP一面
整体不到1h前20min讲了一个项目，没太详细问。然后八股：Llama2架构(embedding,transformerblock,LMhead)Llama2transformerblock里做了哪些改变(RMSNorm,RoPE,SwiGLU,PreNorm不太清楚说全了没)为什么用RMSNorm不用LayerNorm(答参数量少，不太对)为什么用RoPE不用绝
2024-07-06OpenELM：开启开放训练和推理框架的高效语言模型家族
随着大模型模型规模的增长，这些强大工具的透明度、可复现性和对数据偏见的敏感性也引起了人们的关注。这些问题不仅关系到研究的开放性和公平性，也关系到模型输出的可信度和安全性。为了应对这些挑战，Apple的研究团队发布了名为OpenELM的新一代开放语言模型。OpenELM采用了层级缩
2024-05-30大模型中用到的归一化方法总结
大模型中的归一化主要是为了解决LLM训练不稳定的问题LLM中归一化方法可以按照归一化方法来分，主要分为LayerNorm，BatchNorm，RMSNorm以及DeepNorm按照归一化位置来分类，包括postNorm和preNorm1.BatchNormBatchNorm主要对数据的一定的特征维度在batch数据中进行归一，一般来说应用