令技术圈为之振奋的 DeepSeek-V3
这让很多人感到惊喜。时下 DeepSeek-V3 已在国内外各大科技板块刷屏,同时引发了不少 AI 大佬的关注。
OpenAI 前研究科学家、特斯拉前人工智能主管、AI 大神 Andrej Karpathy 评价道:
“DeepSeek(中国一家AI公司)今天再次展现出令人惊叹的实力,其开源的顶尖大语言模型以极低的预算完成训练(2048 块 GPU 训练2个月,总成本仅为 600 万美元)。
对比之下,通常这种能力水平的模型需要接近 16K GPU 的集群,而目前一些正在部署的集群规模已接近 10 万块 GPU。例如,Llama 3 405B 耗费了 3080 万 GPU 小时,而 DeepSeek-V3 仅耗费 280 万 GPU 小时(算力需求减少约 11 倍),但表现似乎更为强劲。如果该模型在各种测试中(如 LLM arena 排行榜测试,目前仍在进行中,我的几次简单测试结果不错)表现良好,那将是资源受限情况下研究与工程能力的一次极为令人印象深刻的展示。
这是否意味着训练前沿级 LLM 不再需要大规模 GPU 集群?并不是。但关键在于如何高效利用现有资源。这次成果表明,在数据和算法方面仍有大量潜力可以挖掘。
标签:AI,11.22,DeepSeek,V3,集群,LLM,GPU From: https://www.cnblogs.com/liyize/p/18646437