1.大模型对运维的要求也是相对严格特别是光模块对环境的要求相对严格。
2.大模型训练的影响因素
分布式训练切法:Tensor模型并行:pipeline并行,数据并行。和称PTD并行。all to all专家并行(华为优化方案分层分级)
补充QKV
以及LayerNorm深入理解NLP中LayerNorm的原理以及LN的代码详解-CSDN博客
具体的一些处理方式
训练业务流程
典型的训练组网
CANN大模型运维平台
标签:方案,训练,模型,并行,华为,LayerNorm From: https://www.cnblogs.com/guoziheng/p/18318801