• 2024-09-22【面试经验】商汤NLP一面
    整体不到1h前20min讲了一个项目,没太详细问。然后八股:Llama2架构(embedding,transformerblock,LMhead)Llama2transformerblock里做了哪些改变(RMSNorm,RoPE,SwiGLU,PreNorm不太清楚说全了没)为什么用RMSNorm不用LayerNorm(答参数量少,不太对)为什么用RoPE不用绝
  • 2024-07-06OpenELM:开启开放训练和推理框架的高效语言模型家族
    随着大模型模型规模的增长,这些强大工具的透明度、可复现性和对数据偏见的敏感性也引起了人们的关注。这些问题不仅关系到研究的开放性和公平性,也关系到模型输出的可信度和安全性。为了应对这些挑战,Apple的研究团队发布了名为OpenELM的新一代开放语言模型。OpenELM采用了层级缩
  • 2024-05-30大模型中用到的归一化方法总结
    大模型中的归一化主要是为了解决LLM训练不稳定的问题LLM中归一化方法可以按照归一化方法来分,主要分为LayerNorm,BatchNorm,RMSNorm以及DeepNorm按照归一化位置来分类,包括postNorm和preNorm1.BatchNormBatchNorm主要对数据的一定的特征维度在batch数据中进行归一,一般来说应用