• 2024-08-05BMTrain类Megatron+DeepSpeed原理学习
    这一章节虽然是BMTrain,不是目前常用的Megatron+DeepSpeed,但是对于了解原理,也是很有帮助。BMTrain数据并行一般数据并行上图,把数据切为3份,每张显卡处理一部分数据,每张显卡利用得到的数据进行前向传播和反向传播,得到各自的梯度,为了让模型学到这份数据的所有知识,就需要
  • 2024-07-22跟代码执行流程,读Megatron源码(三)megatron训练脚本training.py之pretrain()
    一.megatron/training目录介绍在Megatron-LM的代码仓中,megatron/training目录扮演着至关重要的角色,承载着模型训练流程的全面实现,涵盖训练逻辑的构建、训练参数的精密配置、训练数据的处理以及并行训练策略的优化部署。以下是对megatron/training目录主要代码文件的介绍: