网站首页
编程语言
数据库
系统相关
其他分享
编程问答
Gpipe
2024-11-08
大模型--训练 加速之 流水线并行Pipeline Parallelism-10
目录1.参考2.概述3.目标4.模型并行4.流水线并行4.1切分micro-batch4.2re-materialization(activecheckpoint)5.实验效果5.1GPU数量VS模型大小ofModelParameter表示模型的参数量5.2GPU数量VS训练速度5.3Gpipe下时间消耗分布1.参考https://zhuanlan.zhihu.com/p/6