程序 · 杂谈 | DeepSeek发布最强开源数学定理证明模型

时间：2024-08-18 17:15:19浏览次数：10

标签：Lean DeepSeek 杂谈开源证明 Prover V1.5 模型

DeepSeek-Prover-V1 展示了大模型在数学定理证明领域的潜力，通过将数学问题转换为 Lean 编程语言，帮助数学家严格验证证明正确性。

今天，DeepSeek 开源 Prover-V1.5 版本，引入了类似 AlphaGo 的强化学习系统，模型通过自我迭代和 Lean 证明器监督，构建了一个“围棋”式的学习环境。

最终，仅 7B 参数规模的 Prover-V1.5，在高中（miniF2F）和大学（ProofNet）数学定理证明测试中分别达到了 63.5% 和 25.3% 的成功率，超越了多款开源模型（InternLM2-StepProver、Llemma）。

Highlights

数据：使用 DeepSeek-Coder-V2 合成自然语言思维链标注数据，结合 Lean 证明器标注的中间状态信息，将模型的形式化证明能力与自然语言推理对齐，同时满足程序验证的要求。
训练：以 Lean 证明器的验证结果直接作为奖励信号，使用 GRPO 算法对模型进行强化学习训练。
蒙特卡洛树搜索：引入 RMaxTS 算法，激励探索行为以解决证明搜索中的奖励稀疏问题，增强模型灵活生成多样化证明的能力。
实验结果：在高中水平的 miniF2F 和大学本科水平的 ProofNet 基准测试中取得了新的 SOTA，显著超越了所有现有模型。

论文和模型均已开源：

论文地址：https://arxiv.org/abs/2408.08152

模型下载：https://huggingface.co/deepseek-ai

GitHub 主页：https://github.com/deepseek-ai/DeepSeek-Prover-V1.5

模型训练

预训练

在高质量的数学和代码数据上进行进一步的预训练，特别关注 Lean、Isabelle 和 Metamath 等定理证明语言，以提高模型在形式化数学领域的通用能力。

有监督微调

已有工作大多聚焦于仅仅生成下一个证明步骤，而 DeepSeek-Prover-V1.5 则选择了更为困难的完整证明生成的训练目标。此外，在 DeepSeek-Prover-V1 合成的大规模定理证明数据的基础上，利用 DeepSeek-Coder-V2 合成自然语言的思维链数据标注，促使模型兼顾自然语言推理与形式化定理证明。

强化学习

抽取微调数据中的定理内容作为输入，使用微调后的模型生成多个完整的证明候选项，然后利用 Lean 证明器对其正确性进行检验。将验证结果作为二元奖励信号，强化学习训练进一步增强了模型与验证系统形式规范的一致性。

三阶段模型权重均已开源。

蒙特卡洛树搜索

DeepSeek-Prover-V1.5 将定理证明中的蒙特卡洛树搜索从单一证明预测推广至完整证明生成，为此特别引入了“截断-恢复”的机制来进行树节点的扩展：

（a）选择一个节点进行扩展，追踪其对应的证明代码前缀，其中包括文件头、初始声明以及所有祖先节点中已经成功应用的 tactics。

（b）模型基于这个代码前缀和 Lean 证明器返回的 tactic state 生成后续完整证明。

（c） Lean 4 证明器验证组合后的证明代码（前缀和新生成的代码）。如果没有发现错误，树搜索过程终止。如果检测到错误，我们在第一个错误消息处截断新生成的代码，丢弃后续代码，并将成功部分解析为 tactics。

（d）每个 tactic 作为新节点添加到搜索树中，在选定的节点之后扩展出一串后继节点。

（e）完成树节点扩展后，选择另一个候选节点并进行下一轮扩展。

这个过程重复进行，直到找到正确的证明或达到采样数上限。

此外，DeepSeek-Prover-V1.5 结合了一种新的蒙特卡洛树搜索算法——RMaxTS，建立了内在奖励机制以引导搜索流程中生成的证明产生多样化的 tactic state，利用 Lean 证明器的反馈来帮助减少冗余生成，提高采样效率。

模型表现

下表展示了各模型在 miniF2F-test 基准测试中的表现。该基准由高中水平的数学习题和竞赛题（如 AMC、AIME 和 IMO）在 Lean 定理证明语言中形式化而成。在直接生成完整证明的任务中，DeepSeek-Prover-V1.5 以 60.2% 的证明通过率显著领先其他方法。当结合 RMaxTS 树搜索技术时，其性能更是提升至 63.5% 的通过率。

下表呈现了各模型在 ProofNet 基准测试上的成绩。该基准精选了数学本科主流教材中的习题，涵盖实分析、复分析、线性代数、抽象代数和拓扑学等核心分支。在直接生成证明的任务中，DeepSeek-Prover-V1.5 再次以 22.6% 的通过率显著超越其他方法。运用 RMaxTS 树搜索后，其表现进一步提升至 25.3% 的通过率。

更多方法细节和分析实验见论文。

About Future

随着人工智能技术的不断进步，数学定理证明领域正迎来一场革命。DeepSeek-Prover-V1.5的最新成果表明，AI能够凭借其强大的逻辑推理能力独立解决多步骤的复杂证明问题。这一突破不仅展示了AI在数学定理证明中的巨大潜力，还为未来开发能够自主提出并证明完整数学理论的AI系统奠定了坚实基础。这些系统将有助于人类数学家更深入地探索数学真理，推动数学研究的前沿发展。

标签：Lean,DeepSeek,杂谈,开源,证明,Prover,V1.5,模型
From： https://www.cnblogs.com/jssst/p/18365826

FFmpeg开发笔记（四十八）从0开始搭建直播系统的开源软件架构
音视频技术的一个主要用途是直播，包括电视直播、电脑直播、手机直播等等，甚至在线课堂、在线问诊、安防监控等应用都属于直播系统的范畴。由于直播系统不仅涉及到音视频数据的编解码，还涉及到音视频数据的实时传输，因此直播领域采用的网络技术标准比较高，实现起来也比一般的WEB系统复......
一款免费的开源支付网关系统，支持X宝、某信、云闪付等多种支付方式，提供收单、退款、聚
前言在数字化浪潮中，电子-商务和移动支付迅速崛起，支付系统成为企业运营的核心组件。然而，现有支付处理方案常面临成本高、集成复杂、系统耦合度高等挑战。这些问题不仅增加了企业负担，也制约了业务的快速迭代和创新。市场迫切需要一款经济、高效、安全的支付系统来打破现状。......
在亚马逊云科技上部署开源大模型并利用RAG和LangChain开发生成式AI应用
项目简介：小李哥将继续每天介绍一个基于亚马逊云科技AWS云计算平台的全球前沿AI技术解决方案，帮助大家快速了解国际上最热门的云计算平台亚马逊云科技AWSAI最佳实践，并应用到自己的日常工作里。本次介绍的是如何在亚马逊云科技上利用SageMaker机器学习服务部署开源大模型，使用La......
C程序设计——基本变量类型（指针杂谈）
瞎聊本文后面的内容，可以暂时看不懂，以后如果从事这一行，慢慢会理解，但是这句话要记住：如果 piInt是一个指向整型的指针变量，那么 *piInt就是一个整型变量；类似的，如果pcChar是一个指向字符型的指针变量，那么*pcChar就是一个字符型的变量；……其实这部分内容，也许放在 C程序设计......
一文快速了解开源表单快速开发的多个优势
帮助企业提升效率、降低成本、做好数据治理，是低代码技术平台的发展优势。了解低代码技术平台的客户朋友都知道，它拥有可视化操作界面、更高效、更可靠、更灵活等优势，是助力企业降本增效的助手。本文将从各个方面为大家解析什么是低代码技术平台，以及开源表单快速开发的优势特点。先......
一文读懂！如何选择最适合的开源项目管理工具
国内外主流的10款开源项目管理系统对比：PingCode、Worktile、Gitee、开源中国(OSChina)、禅道(ZenTao)、OpenProject、Redmine、Leantime、MeisterTask、Freedcamp。在选择合适的开源项目管理工具时，你是否感到困惑和不安？市场上众多的选项和技术参数可能让你不知所措，而正确的......
.NET 高效开发Nuget管理工具（开源）
我们.NET开发会引用很多外部Nuget包，多项目、多个解决方案、甚至多个仓库。简单的Nuget包管理，通过VS就能比较简单处理好。但复杂的场景呢，比如：1.一个仓库里，有多个解决方案的Nuget包管理--我现在项目就是这样的，针对会议大屏的全家桶软件集代码仓库。这个仓库里，接近30个工具/应用......
Ettercap 是一个用于网络嗅探和中间人攻击的开源工具，主要用于网络安全测试和分析。它
Ettercap是一个用于网络嗅探和中间人攻击的开源工具，主要用于网络安全测试和分析。它支持多种平台，包括Linux、Windows和macOS。Ettercap可以用来监视、分析、和修改网络流量，通常用于测试和审计网络的安全性。以下是Ettercap的一些主要功能和特点：主要功能嗅探和分析网络......
IoTSharp：基于 .NET 6.0 的开源物联网平台
目录前言项目介绍为什么会有IoTSharp？IoTSharp能做什么？IoTSharp的亮点项目技术1、编程语言2、系统框架3、数据库支持4、消息队列与EventBus5、EventBus存储项目使用1、下载2、启动3、注册服务4、初始化influxdb5、注册6、运行项目地址总结最后前......
一款开箱即用的整合第三方登录的开源组件，整合了国内外数十家知名平台的OAuth登录（附源
前言在现代应用开发中，第三方登录认证是一个不可或缺的功能，它为用户带来了便捷的登录体验。然而，开发者在实现这一功能时往往会遇到一些痛点：需要对接多个第三方平台的SDK，每增加一个平台就要编写一套新的代码，导致代码维护变得复杂且困难。此外，从头开发一个完整的登录功能不仅需要......