Let’s Verify Step by Step

时间：2024-10-18 09:48:43浏览次数：6

本文是LLM系列文章，针对《Let’s Verify Step by Step》的翻译。

让我们一步一步地验证

摘要
1 引言
2 方法
3 大规模监督
4 小规模合成监督
5 OOD泛化
6 讨论
7 相关工作
8 结论

摘要

近年来，大型语言模型在执行复杂多步推理的能力方面有了很大提高。然而，即使是最先进的模型也经常出现逻辑错误。为了训练更可靠的模型，我们可以转向结果监督，为最终结果提供反馈，也可以转向过程监督，为每个中间推理步骤提供反馈。鉴于训练可靠模型的重要性，以及人工反馈的高昂成本，仔细比较这两种方法非常重要。最近的工作已经开始进行这种比较，但许多问题仍然存在。我们进行了自己的调查，发现过程监督在训练模型解决具有挑战性的MATH数据集中的问题方面明显优于结果监督。我们的过程监督模型解决了MATH测试集代表性子集中78%的问题。此外，我们发现主动学习显著提高了过程监督的效率。为了支持相关研究，我们还发布了PRM800K，这是一个包含80万步级人类反馈标签的完整数据集，用于训练我们的最佳奖励模型。

1 引言

2 方法

3 大规模监督

4 小规模合成监督

5 OOD泛化

6 讨论

7 相关工作

标签：泛化,训练,Verify,模型,反馈,Step,Let,监督
From： https://blog.csdn.net/c_cpp_csharp/article/details/142985948

PyTorchStepByStep - Chapter 5: Convolutions
single=np.array([[[[5,0,8,7,8,1],[1,9,5,0,7,7],[6,0,2,4,6,6],[9,7,6,6,8,4],[8,3,8,5,1,3],[7,2,7,0,1,0]]]])single.shape#(1,1,6,6)identity=np.array([[[[0,0,......
PyTorchStepByStep - Bonus Chapter: Feature Space
......
CF1876G Clubstep
原题链接CF1876GClubstep。DX上课讲的，有趣啊。考虑暴力咋做。首先肯定不会选择一个\(>r\)的\(p\)来做操作，因为不如在\(r\)处做操作。那么一开始我们肯定要在\(r\)处做\(\max(0,\lceil\dfrac{x-a_r}{2}\rceil)\)次操作，然后接着往前做。但是这样每次序列的值会变，发......
CMSC Manual testing Completeness SNU Score
Homework#3Due:Friday,October18that4:00pmCSTTableofContentsHomework#3GettingstartedManualtestingCompletenessSNUScoreCodeQualitySubmissionThepurposeofthisassignmentistogiveyouexperiencewithconditionals,lists,andloops.......
2019-3-13-win10-uwp-使用-ScaleTransform-放大某个元素
titleauthordateCreateTimecategorieswin10uwp使用ScaleTransform放大某个元素lindexi2019-3-1319:5:56+08002019-03-1316:50:36+0800Win10UWP本文告诉大家如何通过ScaleTransform放大元素放大一个元素的方法有很多个，通过ScaleTransform放大是比较清真的在UWP中Sc......
CtsPermissionTestCases之android.permission.cts.DebuggableTest#testNoDebuggable
平台：高通C6490,android13测试结果：android.permission.cts.DebuggableTest#testNoDebuggablefailjunit.framework.AssertionFailedError:Packagesmarkeddebuggable:[com.skyworthdigital.autotest.all] 这个问题是该测试对应的app是否有debugable的标签。解决......
ThreeJS入门（123）：THREE.Skeleton 知识详解，示例代码
作者：还是大剑师兰特，曾为美国某知名大学计算机专业研究生，现为国内GIS领域高级前端工程师，CSDN知名博主，深耕openlayers、leaflet、mapbox、cesium，webgl，ThreeJS，canvas，echarts等技术开发，欢迎加微信（gis-dajianshi），一起交流。查看本专栏目录-本文是第123篇入门文章......
创建第一个Servlet（IDEA2024版）
1.创建新项目2.添加web架构3.在web/WEB-INF下创建classes和lib两个文件夹4.配置项目的编译输出路径配置完如图5.添加servlet包找到安装的Tomcat的路径6.配置Tomcat修改此处地址这里也会随之改变7.添加servlet模型右键src后，发现New里面没有Servl......
smbms(原生servlet项目)
一.准备工作1.基本架构2.在数据库中创建对应的表对应数据库代码如下：CREATEDATABASE`smbms`;USE`smbms`;DROPTABLEIFEXISTS`smbms_address`;CREATETABLE`smbms_address`(`id`BIGINT(20)NOTNULLAUTO_INCREMENTCOMMENT'主键ID',`contact`VARCH......
Steps to One
StepstoOne\(CF\)星不知道多少，开口放不知道\(T\)几。简化题意给一个数列，每次随机选一个\(1\)到\(m\)之间的数加在数列末尾，数列中所有数的\(\gcd=1\)时停止，求期望长度。\(m\le10^5\)题解久违的推式子题，简单式子（虽然我推了一上午）。先来个\(DP\)。设\(......