最近,DeepSeek-V3在国外挺火的,我们来看看这模型有哪些特点。
简介
DeepSeek V3是由中国幻方量化公司开发的一款大型语言模型,它基于自研的MoE(Mixture of Experts,混合专家)架构设计,总参数量达到了671亿,在推理时仅激活37亿参数。这一独特的架构选择使得DeepSeek V3不仅能够在性能上与GPT-4o和Claude 3.5 Sonnet等顶级闭源模型相媲美,而且在训练成本方面也展现出了极高的性价比,整个训练过程耗资约560万美元。
架构创新
DeepSeek-V3的架构设计非常精巧,其核心技术主要有四点:
-
专家团(MoE架构)。这是一种通过组合多个专家模型来处理复杂任务的方法,能够显著提升效率和准确性。
-
多头潜在注意力(MLA)。MLA技术,它可以压缩注意力机制以减少需要处理的信息量,从而提高效率;
-
无辅助损失的负载平衡策略则确保了各个专家之间的任务分配更加合理,避免了资源浪费;
-
多令牌预测训练目标。
训练优化
为了进一步降低成本并提高训练效率,DeepSeek V3团队采取了一系列措施。例如,他们利用了FP8混合精度训练框架,这种做法可以在不影响最终效果的前提下大幅减少计算需求。同时,通过高效的管道并行性和跨节点全对全通信技术的应用,使得模型能够在有限的硬件资源下完成更大规模的训练。值得注意的是,DeepSeek V3的训练仅使用了2048个NVIDIA H800 GPU,并且在大约两个月的时间内就完成了全部流程。
性能表现
根据官方提供的评测结果,DeepSeek V3在多个基准测试中均取得了优异的成绩,尤其是在数学推理和编程任务方面表现出色。例如,在密文解码任务中,它是唯一给出正确答案的大模型;而在代码生成的任务里,则提供了详尽的代码注释、算法原理说明及开发流程指导。
除此之外,DeepSeek V3还在知识类任务如MMLU、GPQA等方面接近甚至超过了当前最好的模型Anthropic公司的Claude-3.5-Sonnet。
值得注意的点是,DeepSeek V3不仅在响应速度上很不错,而且训练成本也很低。参考数据:DeepSeek-V3的训练成本只有557.6万美元,这只是训练Meta的Llama 3.1所需估计的5亿美元的一小部分。
开源贡献
作为一款完全开源的模型,DeepSeek V3不仅为全球开发者提供了一个免费使用的平台,而且还公布了详细的训练细节和技术文档(长达53页),这对于推动AI领域的开放合作具有重要意义。不仅如此,官方还特别强调了模型的安全性和透明度问题,承诺不会包含任何来自专有模型的数据。