首页 > 其他分享 >Deepseek v3 的笔记

Deepseek v3 的笔记

时间:2025-01-03 23:30:27浏览次数:8  
标签:Sonnet Deepseek 笔记 4o v3 3.5 GPT

基本概述

Deepseek v3是Deepseek发布的旗舰模型,属于607B的混合专家(MoE)模型,其中活跃参数为37B。在当前的模型领域,它堪称最佳的开源模型,性能超越了Llama 3.1 405b、Qwen和Mistral等知名模型。根据基准测试结果,它与OpenAI的GPT - 4o以及Claude 3.5 Sonnet处于同一水平,并且在某些任务上的表现还要更胜一筹。

训练优势及突破

  • 成本与效率:在训练方面取得了令人瞩目的成果,仅花费约600万美元,在英伟达h800s集群上使用278.8万个GPU小时,基于14.8万亿高质量数据完成了预训练。与之形成鲜明对比的是,Llama 403b的训练数据量是其11倍,消耗了3084万个GPU小时,并且同样基于约15万亿的token进行训练。

技术创新

  • 模型架构

    • MoE架构:采用混合专家(MoE)架构,在处理每个token时,仅激活37B的参数,相较于传统的密集模型,这种稀疏激活方式极大地降低了计算需求。

    • 多头潜在注意力(MLA):运用此技术压缩了键值(Key - Value)缓存,不仅减少了内存使用量,还使得训练过程更加高效。

  • FP8混合精度训练:实现了FP8混合精度训练框架,与传统的FP16/FP32格式相比,内存占用最多可降低50%。同时,通过采用细粒度量化策略以及提高累加精度,在提升训练速度的同时有效保证了模型的准确性。

  • 负载均衡策略:针对MoE架构,首创了无辅助损失的负载均衡策略,这种策略在不引入传统辅助损失方法弊端的前提下,有效提升了模型的性能。

  • 训练框架:开发了自定义的HAI - LLM训练框架,该框架具备多项优化:

    • 双管道算法:通过双管道算法实现了高效的流水线并行,减少了流水线中的气泡,实现了计算和通信的重叠,从而提高了训练效率。

    • 高效通信内核:具备高效的跨节点全对全通信内核,能够充分利用网络带宽,加速数据传输。

    • 内存优化:通过精心的内存优化措施,避免了使用成本高昂的张量并行,进一步降低了训练成本。

新增特性

Deepseek v3新增了深度思考(Deepthink)功能,融入了Deepseek R1系列模型的思维链(CoT)能力。具体做法是通过创新的知识蒸馏方法,将R1系列模型的推理能力迁移到Deepseek v3中,在这个过程中,巧妙地将R1的验证和反思模式融入其中,不仅显著提升了v3的推理性能,还能够对v3的输出风格和长度进行有效控制。用户可以在Deepseek聊天界面中启用该特性,尽管其效果不如o1,但对模型推理能力有一定程度的增强。

与其他模型的性能对比

作者围绕推理、数学、编码、创意写作四个关键领域,使用一系列基准问题对Deepseek v3、GPT - 4o和Claude 3.5 Sonnet进行了测试:

  • 推理能力

    • “找第四个单词”问题:未启用Deepthink CoT时回答错误,启用后经过分析思考,正确找出了句子中的第四个单词,证明该特性有助于提升推理准确性。

    • “数单词数量”问题:Deepseek v3回答错误,但GPT - 4o和Claude 3.5 Sonnet同样未能答对。

    • “草莓单词中r的数量”问题:Deepseek v3正确回答,而GPT - 4o从未答对过该问题。

    • “农夫与羊过河”问题:无论是否启用Deepthink CoT,Deepseek v3都未能得出正确答案,但整体来看,它在推理能力上仍优于GPT - 4o和Claude 3.5 Sonnet,虽不及o1,但表现也较为出色。

  • 数学能力

    • 简单减法运算:对于“5.11 - 5.90”这类简单数学问题能够正确计算。

    • 平行四边形顶点问题:在求平行四边形可能的第四个顶点问题上,Deepseek v3能够准确找出所有可能的顶点,而GPT - 4o和3.5 Sonnet只能找出一个。

    • 整数求和问题:面对较复杂的整数相关数学问题,启用Deepthink特性后,Deepseek v3给出了正确答案,表明其数学能力强于GPT - 4o和Claude 3.5 Sonnet。

  • 编码能力:使用LeetCode上较新的“Super Heroes”这一“Hard”难度的动态规划问题进行测试。Deepseek v3首次回答时完全失败,一个测试用例都未通过,但再次尝试时给出了完美解决方案,且性能表现优异。综合来看,其编码能力接近GPT - 4,但Claude 3.5 Sonnet在编码方面仍有微弱优势。

  • 创意写作能力:Deepseek v3的输出在风格上与GPT - 4o极其相似,包括响应模式、段落结构以及用词等方面。例如在对同一段落进行优化时,两者输出近乎相同,推测可能是基于GPT - 4o生成的合成数据集进行训练。不过在创意写作方面,Claude 3.5 Sonnet因具有更人性化的观点和看法而略胜一筹。

最终评价与适用场景

  • 最终评价:在推理和数学任务上,Deepseek v3表现最佳,依次领先于Claude 3.5 Sonnet和OpenAI GPT - 4o;在编码和创意写作任务中,Claude 3.5 Sonnet更具优势,Deepseek v3与GPT - 4o水平相近,Deepseek v3稍强一些。

  • 适用场景:如果使用场景主要围绕GPT - 4o展开,那么可以放心切换到Deepseek v3;对于构建基于大语言模型(LLM)的应用来说,Deepseek v3因其卓越的性价比,是开发面向客户端AI应用的不二之选;此外,该模型权重开源,用户能够自行托管,这给予了用户对模型更多的控制权。

标签:Sonnet,Deepseek,笔记,4o,v3,3.5,GPT
From: https://blog.csdn.net/qq_22337877/article/details/144919887

相关文章

  • Win32汇编学习笔记03.RadAsm和补丁
    https://bpsend.net/thread-163-1-1.html补丁扫雷游戏啊下补丁在扫雷游戏中,点关闭弹出一个确认框,确认之后再关闭,取消就不关闭首先第一步就是确认关闭按钮响应的位置,一般都是WM_CLOSE的消息,消息响应一般都在过程函数,所以就是要定位到过程函数,我们知道MC项目中,......
  • 2025 01 做题笔记
    0102MX省选模拟赛Day8,\(63+100+0\),rk5,T1想到了几乎所有转化,还是死在了最后一步找支配对,我以为这没啥性质的。T上了,P呢?P4482[BJWC2018]Border的四种求法:学习了一种很厉害的单logborderseries做法,但是太难写了,还是用SAM吧,我们要做的就是对r对应的节点找一......
  • 深度学习笔记08-YOLOv5-C3模块实现
    本文实现了YOLVv5-C3模块。文章目录前言一、加载数据1.引入库2.导入数据3.自定义transforms4.查看类别5.划分数据集6.加载数据二、建立模型1.搭建模型2.查看模型详情三、训练模型1.训练函数2.测试函数3.main4.结果可视化5.模型评估总结前言......
  • [学习笔记] 大学美育
    目录1.审美需要1.0.测试题1.1.审美主体1.2.审美需要2.审美能力2.0.测试题2.1.审美经验模式2.1.1.审美体验2.1.2.审美注意2.1.3.审美心理距离2.1.4.审美移情2.1.5.完形心理2.2.审美心理要素2.2.1.审美感觉2.2.2.审美知觉2.2.3.审美想象2.2.4.审美情感2.2.5.审美......
  • 微机原理与接口技术——期末笔记 实验总结 侧重Win32汇编代码实现
    微机原理与接口技术声明:本篇文章是在复习期末考试的过程中根据教材与实验所总结的复习资料,参考书目为*《微机原理与接口技术(第2版)——Win汇编、接口及设备驱动》郭兰英赵祥模编著*。文章只重点总结了前两章、第五章、五大芯片、键盘、AD转换的具体代码示例。所有代码均来......
  • 电力交易笔记-附件6:现货交易费用定义
    政府授权合约签订政府授权合约的新能源市场主体可以正常参与电力中长期交易,政府授权合约电量按照政府授权合约电价与市场参考电价进行差价结算。成本补偿费用在现货市场中,发电侧存在机组启动成本、空载成本以及必开机组结算电价低于成本等额外的运行成本。为了补偿这些成本,建立......
  • 深度剖析 DeepSeek V3 技术报告:架构创新与卓越性能表现
    随着人工智能(AI)技术的不断发展,各种大规模语言模型(LLM)层出不穷,DeepSeekV3作为其中的一员,凭借其出色的性能表现和创新的架构设计,吸引了广泛关注。本文将通过对官方发布的DeepSeekV3技术报告的深入解析,从多个维度剖析DeepSeekV3如何通过先进的技术手段,在保持性能卓越的......
  • 《IT项目管理》 - 课程笔记
    Chapter1.项目管理概述哪些是项目,哪些不是项目?为某银行客户开发、安装网上银行支付系统√负责网上银行系统的销售工作×在2022年销售20套以上的网上银行系统√为某银行的网上银行系统提供售后服务×建立客户售后服务热线√管理售后服务热线,接听客户来电,解......
  • 基于SpringBoot的DeepSeek-demo 深度求索-demo 支持流式输出、历史记录
    文章目录文件下载效果展示IdeaPythonPostman使用说明核心代码controllerService文件下载百度网盘提取码:jsfc蓝奏云密码:5kxz效果展示IdeaPythonPostman注:postman中只有websocket才有流式效果使用说明修改配置文件请求路径为/chat在请求体中传......
  • [数据结构学习笔记3] 数组
    数组是用于存放一组数据,把这组数据存放在连续的空间里。通常有插入,删除,查找,访问等操作。举例:购物清单,初始状态:清单:牛奶->鸡蛋->奶油->火腿->果汁下标:0      1     2      3     4插入:1.插在末尾清单:牛奶->鸡蛋->奶......