首页 > 其他分享 >Let’s Verify Step by Step

Let’s Verify Step by Step

时间:2024-10-18 09:48:43浏览次数:6  
标签:泛化 训练 Verify 模型 反馈 Step Let 监督

本文是LLM系列文章,针对《Let’s Verify Step by Step》的翻译。

让我们一步一步地验证

摘要

近年来,大型语言模型在执行复杂多步推理的能力方面有了很大提高。然而,即使是最先进的模型也经常出现逻辑错误。为了训练更可靠的模型,我们可以转向结果监督,为最终结果提供反馈,也可以转向过程监督,为每个中间推理步骤提供反馈。鉴于训练可靠模型的重要性,以及人工反馈的高昂成本,仔细比较这两种方法非常重要。最近的工作已经开始进行这种比较,但许多问题仍然存在。我们进行了自己的调查,发现过程监督在训练模型解决具有挑战性的MATH数据集中的问题方面明显优于结果监督。我们的过程监督模型解决了MATH测试集代表性子集中78%的问题。此外,我们发现主动学习显著提高了过程监督的效率。为了支持相关研究,我们还发布了PRM800K,这是一个包含80万步级人类反馈标签的完整数据集,用于训练我们的最佳奖励模型。

1 引言

2 方法

3 大规模监督

4 小规模合成监督

5 OOD泛化

6 讨论

7 相关工作

标签:泛化,训练,Verify,模型,反馈,Step,Let,监督
From: https://blog.csdn.net/c_cpp_csharp/article/details/142985948

相关文章

  • PyTorchStepByStep - Chapter 5: Convolutions
     single=np.array([[[[5,0,8,7,8,1],[1,9,5,0,7,7],[6,0,2,4,6,6],[9,7,6,6,8,4],[8,3,8,5,1,3],[7,2,7,0,1,0]]]])single.shape#(1,1,6,6)identity=np.array([[[[0,0,......
  • PyTorchStepByStep - Bonus Chapter: Feature Space
      ......
  • CF1876G Clubstep
    原题链接CF1876GClubstep。DX上课讲的,有趣啊。考虑暴力咋做。首先肯定不会选择一个\(>r\)的\(p\)来做操作,因为不如在\(r\)处做操作。那么一开始我们肯定要在\(r\)处做\(\max(0,\lceil\dfrac{x-a_r}{2}\rceil)\)次操作,然后接着往前做。但是这样每次序列的值会变,发......
  • CMSC Manual testing Completeness SNU Score
    Homework#3Due:Friday,October18that4:00pmCSTTableofContentsHomework#3GettingstartedManualtestingCompletenessSNUScoreCodeQualitySubmissionThepurposeofthisassignmentistogiveyouexperiencewithconditionals,lists,andloops.......
  • 2019-3-13-win10-uwp-使用-ScaleTransform-放大某个元素
    titleauthordateCreateTimecategorieswin10uwp使用ScaleTransform放大某个元素lindexi2019-3-1319:5:56+08002019-03-1316:50:36+0800Win10UWP本文告诉大家如何通过ScaleTransform放大元素放大一个元素的方法有很多个,通过ScaleTransform放大是比较清真的在UWP中Sc......
  • CtsPermissionTestCases之android.permission.cts.DebuggableTest#testNoDebuggable
    平台:高通C6490,android13测试结果:android.permission.cts.DebuggableTest#testNoDebuggablefailjunit.framework.AssertionFailedError:Packagesmarkeddebuggable:[com.skyworthdigital.autotest.all] 这个问题是该测试对应的app是否有debugable的标签。解决......
  • ThreeJS入门(123):THREE.Skeleton 知识详解,示例代码
    作者:还是大剑师兰特,曾为美国某知名大学计算机专业研究生,现为国内GIS领域高级前端工程师,CSDN知名博主,深耕openlayers、leaflet、mapbox、cesium,webgl,ThreeJS,canvas,echarts等技术开发,欢迎加微信(gis-dajianshi),一起交流。查看本专栏目录-本文是第123篇入门文章......
  • 创建第一个Servlet(IDEA2024版)
    1.创建新项目2.添加web架构3.在web/WEB-INF下创建classes和lib两个文件夹4.配置项目的编译输出路径配置完如图5.添加servlet包找到安装的Tomcat的路径6.配置Tomcat修改此处地址这里也会随之改变7.添加servlet模型右键src后,发现New里面没有Servl......
  • smbms(原生servlet项目)
    一.准备工作1.基本架构2.在数据库中创建对应的表对应数据库代码如下:CREATEDATABASE`smbms`;USE`smbms`;DROPTABLEIFEXISTS`smbms_address`;CREATETABLE`smbms_address`(`id`BIGINT(20)NOTNULLAUTO_INCREMENTCOMMENT'主键ID',`contact`VARCH......
  • Steps to One
    StepstoOne\(CF\)星不知道多少,开口放不知道\(T\)几。简化题意给一个数列,每次随机选一个\(1\)到\(m\)之间的数加在数列末尾,数列中所有数的\(\gcd=1\)时停止,求期望长度。\(m\le10^5\)题解久违的推式子题,简单式子(虽然我推了一上午)。先来个\(DP\)。设\(......