再开一个系列来记录学习AI论文的心得。之前断断续续读过10来篇,最近也听到李想还有几位AI大咖还是公司大佬分享他们是不读AI论文的,但会听自家公司AI团队每周的论文解读会来了解最新进展。这个是有道理的,但咱一线码农没有这个福利,论文还是靠自己。^-^ 这篇论文的Hugging链接在rStar-Math,可以demo的链接尚未发布,论文的原文地址2501.04519。
1. 这个模型全名是rStar-Math(Qwen-7B),一看就是阿里团队发布的,70亿参数,所以是小模型,不过模型虽小,数学推理能力却很强,以下是测试结果,第一列是不同的测试方法,比如AIME2024就是美国数学奥林匹克2024年的题目。当然有一说一o1不仅擅长数学深度推理,这个小模型适合用在单一任务上。
2. rStar-Math使用小语言模型Qwen-7B结合蒙特卡洛树搜索算法通过四轮自我进化来实现,具体训练步骤如下:
第1轮:启动初始策略模型
- 收集数据:从公开数据集收集747K个数学问题,并使用GPT-4生成新的问题
- 生成推理轨迹:使用蒙特卡洛树进行8次搜索,生成逐步验证的推理轨迹,并使用终端引导标注Q值
- 训练策略模型:使用Q值筛选高质轨迹,并使用这些轨迹微调初始策略模型SLM-r1
- 训练过程偏好模型(PPM):使用Q值构建偏好对,并使用成对排序损失训练PPM-r1
第2轮:训练可靠的过程偏好模型
- 生成推理轨迹:使用蒙特卡洛树进行16次搜索,生成更高质量的推理轨迹,并使用PPM-augmented标注Q值
- 训练策略模型:使用Q值筛选高质轨迹,并使用这些轨迹微调策略模型SLM-r2
- 训练过程偏好模型(PPM):使用Q值构建偏好对,并使用成对排序损失训练 PPM-r2
第3轮:使用 PPM-augmented 蒙特卡洛树提高数据质量
- 生成推理轨迹: 使用 PPM-augmented 蒙特卡洛树进行 16 次搜索,生成更高质量的推理轨迹,并使用 Q 值构建偏好对
- 训练策略模型:使用 Q 值筛选高质轨迹,并使用这些轨迹微调策略模型 SLM-r3
- 训练PPM:使用 Q 值构建偏好对,并使用成对排序损失训练 PPM-r3
第4轮:解决更具挑战性的数学问题解决更具挑战性的数学问题
- 生成推理轨迹:对于难以解决的难题,进行额外的 MCTS 搜索和树扩展,以提高难题的解决率
- 训练策略模型:使用 Q 值筛选高质轨迹,并使用这些轨迹微调策略模型 SLM-r4
- 训练PPM:使用 Q 值筛选高质轨迹,并使用这些轨迹微调策略模型 SLM-r4
3. 该模型的主要创新点在于:
- 代码增强的思维链数据(CoT)合成方法:通过 蒙特卡洛树搜索进行大量搜索,生成带有自标注 Q 值的逐步验证推理轨迹,从而确保训练数据的质量和准确性
- 过程偏好模型训练方法:利用 Q 值区分正负步骤,构建偏好对,并使用成对排序损失训练 PPM,从而避免对每一步骤进行精确评分的需求
- 自我进化配方:通过四轮自我进化,逐步构建更强大的策略模型和 PPM,并生成更高质量的训练数据,从而不断提升数学推理能力
4. 实验结果:
- rStar-Math 在 MATH 基准测试中将 Qwen2.5-Math-7B 的准确率从 58.8% 提升到 90.0%,在 AIME 2024 中平均解决了 53.3% 的问题,表现优于 o1-preview 和其他开源 LLM
- 与现有的数据合成方法相比,rStar-Math 生成的高质量推理轨迹能够显著提升 SLM 的数学推理能力
- PPM 在识别关键中间步骤(例如定理应用步骤)方面表现出色,并能够有效地引导策略模型生成正确的解决方案
5. 未来展望:
- rStar-Math 可以应用于更具有挑战性的数学任务,例如定理证明
- rStar-Math 可以推广到其他领域,例如代码和常识推理
- 通过收集更多具有挑战性的数学问题,rStar-Math 可以实现进一步的改进