- 2025-01-13[megatron代码阅读] 1. 初始化和组网
以pretrain_gpt.py为例,看megatron的整体逻辑.本章主要包括megatron初始化相关逻辑,核心函数为initialize_megatron,setup_model_and_optimizer两个initialize_megatronparse_args从argparse中直接读取超参数配置.如学习率,正则化等.从环境变量中获取rank等load_args_f
- 2024-12-10模型并行-Megatron-LM
1.原理 针对transformer模型的模型并行方法,利用矩阵乘法的特性,将每个层切开,放入不同GPU中。对于注意力层,是按注意力头进行切分;对于MLP层,是按矩阵列进行切分。整个执行流程中,每个层的需要进行数据通信,因为对于矩阵切分后的乘法要得到最终的结果需要每个分块的结果进行矩
- 2024-08-05BMTrain类Megatron+DeepSpeed原理学习
这一章节虽然是BMTrain,不是目前常用的Megatron+DeepSpeed,但是对于了解原理,也是很有帮助。BMTrain数据并行一般数据并行上图,把数据切为3份,每张显卡处理一部分数据,每张显卡利用得到的数据进行前向传播和反向传播,得到各自的梯度,为了让模型学到这份数据的所有知识,就需要
- 2024-07-22跟代码执行流程,读Megatron源码(三)megatron训练脚本training.py之pretrain()
一.megatron/training目录介绍在Megatron-LM的代码仓中,megatron/training目录扮演着至关重要的角色,承载着模型训练流程的全面实现,涵盖训练逻辑的构建、训练参数的精密配置、训练数据的处理以及并行训练策略的优化部署。以下是对megatron/training目录主要代码文件的介绍: