• 2025-01-12大模型分布式训练之流水线并行
    在数据并行训练中,一个明显的特点是每个GPU持有整个模型权重的副本,这就带来了冗余问题,虽然,FSDP可以缓解冗余的问题,但是对于超大规模模型来说,仅使用数据并行进行分布式训练没办法使模型的参数规模进一步提升。因此,另一种并行技术是模型并行,即模型被分割并分布在一个设备阵列上