常见的分布式并行策略(分布式训练) |
文章目录
一. 为什么分布式训练越来越流行
标签:训练,模型,常见,并行,笔记,GPT,分布式 From: https://blog.csdn.net/abc13526222160/article/details/137077751
- 近年来,深度学习被广泛应用到各个领域,包括计算机视觉、语言理解、语音识别、广告推荐等。在这些不同的领域中,一个共同的特点就是 模型规模越来越大,比如 GPT-3 模型的参数量达到1750亿。即使用1024张 80 GB 的 A100,那么完整训练 GPT-3 的时长都需要1个月。
- 模型规模的扩大,对硬件(算力、内存)的发展提出要求。然而,因为