• 2025-01-12大模型分布式训练之流水线并行
    在数据并行训练中,一个明显的特点是每个GPU持有整个模型权重的副本,这就带来了冗余问题,虽然,FSDP可以缓解冗余的问题,但是对于超大规模模型来说,仅使用数据并行进行分布式训练没办法使模型的参数规模进一步提升。因此,另一种并行技术是模型并行,即模型被分割并分布在一个设备阵列上
  • 2024-11-30流水线并行,重计算:GPipe;1F1B(一前一后)调度机制
    目录GPipe一、GPipe的背景与目的二、GPipe的功能与特点三、GPipe的应用与效果四、GPipe的开源与可扩展性1F1B(一前一后)调度机制一、背景与基本概念二、1F1B调度机制的要求三、应用与挑战GPipe是一个基于Lingvo(Lingvo是Google基于TensorFlow二次开发的,重点针对序列