• 2024-09-22【面试经验】商汤NLP一面
    整体不到1h前20min讲了一个项目,没太详细问。然后八股:Llama2架构(embedding,transformerblock,LMhead)Llama2transformerblock里做了哪些改变(RMSNorm,RoPE,SwiGLU,PreNorm不太清楚说全了没)为什么用RMSNorm不用LayerNorm(答参数量少,不太对)为什么用RoPE不用绝