首页 > 其他分享 >【AI论文】rStar-Math: 小语言模型实现数学推理达到甚至超越o1水平

【AI论文】rStar-Math: 小语言模型实现数学推理达到甚至超越o1水平

时间:2025-01-10 13:03:30浏览次数:3  
标签:轨迹 rStar AI 模型 PPM Math 使用 推理 o1

再开一个系列来记录学习AI论文的心得。之前断断续续读过10来篇,最近也听到李想还有几位AI大咖还是公司大佬分享他们是不读AI论文的,但会听自家公司AI团队每周的论文解读会来了解最新进展。这个是有道理的,但咱一线码农没有这个福利,论文还是靠自己。^-^ 这篇论文的Hugging链接在rStar-Math,可以demo的链接尚未发布,论文的原文地址2501.04519

1. 这个模型全名是rStar-Math(Qwen-7B),一看就是阿里团队发布的,70亿参数,所以是小模型,不过模型虽小,数学推理能力却很强,以下是测试结果,第一列是不同的测试方法,比如AIME2024就是美国数学奥林匹克2024年的题目。当然有一说一o1不仅擅长数学深度推理,这个小模型适合用在单一任务上。

2. rStar-Math使用小语言模型Qwen-7B结合蒙特卡洛树搜索算法通过四轮自我进化来实现,具体训练步骤如下:

    第1轮:启动初始策略模型

  • 收集数据:从公开数据集收集747K个数学问题,并使用GPT-4生成新的问题
  • 生成推理轨迹:使用蒙特卡洛树进行8次搜索,生成逐步验证的推理轨迹,并使用终端引导标注Q值
  • 训练策略模型:使用Q值筛选高质轨迹,并使用这些轨迹微调初始策略模型SLM-r1
  • 训练过程偏好模型(PPM):使用Q值构建偏好对,并使用成对排序损失训练PPM-r1

    第2轮:训练可靠的过程偏好模型

  • 生成推理轨迹:使用蒙特卡洛树进行16次搜索,生成更高质量的推理轨迹,并使用PPM-augmented标注Q值
  • 训练策略模型:使用Q值筛选高质轨迹,并使用这些轨迹微调策略模型SLM-r2
  • 训练过程偏好模型(PPM):使用Q值构建偏好对,并使用成对排序损失训练 PPM-r2

    第3轮:使用 PPM-augmented 蒙特卡洛树提高数据质量

  • 生成推理轨迹: 使用 PPM-augmented 蒙特卡洛树进行 16 次搜索,生成更高质量的推理轨迹,并使用 Q 值构建偏好对
  • 训练策略模型:使用 Q 值筛选高质轨迹,并使用这些轨迹微调策略模型 SLM-r3
  • 训练PPM:使用 Q 值构建偏好对,并使用成对排序损失训练 PPM-r3

    第4轮:解决更具挑战性的数学问题解决更具挑战性的数学问题

  • 生成推理轨迹:对于难以解决的难题,进行额外的 MCTS 搜索和树扩展,以提高难题的解决率
  • 训练策略模型:使用 Q 值筛选高质轨迹,并使用这些轨迹微调策略模型 SLM-r4
  • 训练PPM:使用 Q 值筛选高质轨迹,并使用这些轨迹微调策略模型 SLM-r4

3. 该模型的主要创新点在于:

  • 代码增强的思维链数据(CoT)合成方法:通过 蒙特卡洛树搜索进行大量搜索,生成带有自标注 Q 值的逐步验证推理轨迹,从而确保训练数据的质量和准确性
  • 过程偏好模型训练方法:利用 Q 值区分正负步骤,构建偏好对,并使用成对排序损失训练 PPM,从而避免对每一步骤进行精确评分的需求
  • 自我进化配方:通过四轮自我进化,逐步构建更强大的策略模型和 PPM,并生成更高质量的训练数据,从而不断提升数学推理能力

4. 实验结果:

  • rStar-Math 在 MATH 基准测试中将 Qwen2.5-Math-7B 的准确率从 58.8% 提升到 90.0%,在 AIME 2024 中平均解决了 53.3% 的问题,表现优于 o1-preview 和其他开源 LLM
  • 与现有的数据合成方法相比,rStar-Math 生成的高质量推理轨迹能够显著提升 SLM 的数学推理能力
  • PPM 在识别关键中间步骤(例如定理应用步骤)方面表现出色,并能够有效地引导策略模型生成正确的解决方案

5. 未来展望:

  • rStar-Math 可以应用于更具有挑战性的数学任务,例如定理证明
  • rStar-Math 可以推广到其他领域,例如代码和常识推理
  • 通过收集更多具有挑战性的数学问题,rStar-Math 可以实现进一步的改进

标签:轨迹,rStar,AI,模型,PPM,Math,使用,推理,o1
From: https://blog.csdn.net/m0_66899341/article/details/145043976

相关文章

  • AI正在悄悄接管互联网:超过半数内容已是 AI 生成!
    序言:这个世界任何时候都会因为利益冲突而变得精彩,人工智能写作是不是一种侵权行为,美国人内部闹得很欢,人工智能对人类的模仿到底算不算侵权?如果法律裁定这种行为就是侵权,那也将是划时代的,因为:模仿不付费将会犯罪,那这个世界会不会就因此停滞发展呢?因为人类的进步就是依靠先模仿然后......
  • 使用OpenAI API构建聊天机器人
    在当今高速发展的技术领域中,AI聊天机器人已经成为企业和开发者增强客户交互的重要工具。OpenAI提供了强大的API,可以帮助我们快速构建智能对话系统。在这篇文章中,我将深入介绍如何使用OpenAI的API来实现一个简单但功能强大的聊天机器人。技术背景介绍聊天机器人是一种利用......
  • 大模型入门怎么学?如何学习AI大模型?
    ​如何学习AI大模型?大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。“AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!想正式转到一些新兴的AI行业,不仅需要系统的学习A......
  • ORA-00001:unique constraint violated(违反了唯一约束)- 4种解决方案
    大家好,我是摇光~ORA-00001是Oracle数据库中的一个常见错误代码,它表示“uniqueconstraint(唯一约束)violated”(违反了唯一约束)。以下是对该错误出现的原因、每个原因对应的案例及解决办法的详细解析:目录@[TOC](目录)1、数据重复:2、并发操作:3、数据迁移或恢复过程中......
  • SQL Server如何查看AlwaysOn的Failover记录信息
    SQLServerAlwaysOn发生了故障转移(Failover)后,我们如何查看AlwaysOn在什么时间点发生故障转移呢?下面简单的总结了一些资料。PowerShell脚本查看Windows事件日志系统中的事件ID=1641,表示群集角色已从一个节点移动到另一个节点。所以我们可以使用PowerShell脚本获取/过滤这类事件......
  • 【YashanDB知识库】审计表UNIFIED_AUDIT_TRAIL出现YAS-00220 utf8 sequence is wrong
    【问题分类】功能使用【关键字】UNIFIED_AUDIT_TRAIL,YAS-00220【问题描述】当审计对象的SQL语句包含非标准中文字符时,出现YAS-00220utf8sequenceiswrong,影响审计记录。--第一步:打开审计开关SQL>ALTERSYSTEMSETUNIFIED_AUDITING=true;Succeed.--创建审计......
  • Hyperledger Fabric v2.5.8 Endorsement failure
    2025-01-0916:47:36.545UTC016aWARN[vscc]Validate->Endorsmentpolicyfailureerror="validationofendorsementpolicyforchaincodefabcarintx12:0failed:implicitpolicyevaluationfailed-1sub-policiesweresatisfied,butthispolicyr......
  • 新版 Cursor 把其他 AI 编程工具按在地上摩擦了!
    大家好,我是汤师爷~AI编程助手Cursor背后的Anysphere公司刚刚完成了1亿美元的B轮融资,估值直接飙升至26亿美元。四个月前,这家公司刚拿下6000万美元,估值还只有4亿美元。如今,增长6.5倍,这速度,简直让人怀疑开挂了。Anysphere不仅融资拿到手软,收入增长更是逆天。公司从4月的年收入400......
  • python画大的pass与fail logo(带颜色)
    print("\033[32m"+4*""+9*"x"+10*""+1*"x"+11*""+7*"x"+5*""+7*"x"+4*""+"\033[0m")print("\033[32m"+4*""+2*"x"......
  • AI绘画工具中,为什么专业玩家爱用Stable Diffusion,普通玩家却喜欢Midjourney?
    专业玩家与普通玩家,用的「AI绘画工具」有什么不同?今天有个朋友找我聊天,发现他的头像是个线稿,感觉用来练手AI生成建筑效果图挺好的。我觉得现在比较好用的AI绘画主要有三个,分别是开源的StableDiffusion和收费的Midjourney、以及ChatGPT中集成的DALL-E。后面两个的注册相......