总的来说,在预训练阶段,DeepSeek-V3 每处理 1 万亿个词元仅需 18 万小时的 H800 GPU 时间,使用配备 2048 块 H800 GPU 的集群,只需 3.7 天即可完成。整个预训练耗时不到两个月,总计使用 266.4 万 GPU 小时。此外,上下文长度扩展耗费 11.9 万 GPU 小时,后期训练(如监督微调和强化学习)耗费 5000 GPU 小时,总训练时长为 278.8 万 GPU 小时。
按每 GPU 小时 2 美元的价格计算,DeepSeek-V3 的整体训练成本约为 557.6 万美元。这一数字仅涵盖正式训练阶段的花费,不包括在模型架构、算法设计或数据处理上的前期研究和消融实验费用,但它远低于通常训练大型语言模型所需的数亿美元。例如,Llama-3.1 的训练成本估计超过 5 亿美元。
标签:H800,11.18,训练,V3,小时,GPU From: https://www.cnblogs.com/liyize/p/18646433