首页 > 其他分享 >强化学习及过程监督学习笔记

强化学习及过程监督学习笔记

时间:2023-06-11 23:44:52浏览次数:66  
标签:标记 模型 笔记 学习 奖励 监督 Openai 强化 数据

写在前面

笔者将在这篇文章中,写下有关过程监督,反馈对齐,奖励模型,和数据构造相关的论文的笔记。

论文主要来自Openai的论文。

 

论文挖坑列表

一篇Openai中提到的用于训练奖励模型的方法

K. Cobbe, V. Kosaraju, M. Bavarian, M. Chen, H. Jun, L. Kaiser, M. Plappert, J. Tworek, J. Hilton, R. Nakano, et al. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168, 2021.

 

基于过程监督+奖励模型实现复杂数学题的求解

Improving mathematical reasoning with process supervision (openai.com)

 

训练数据的收集和处理技巧

0,设计了PRM(过程监督奖励模型)

1,采用了15亿个数学相关的Token(数据集为MathMix)进行微调,发现能够提高性能模型的数学性能。

2,训练过generater以一行一行的形式输出该问题的解决方案

3,Openai采用了一个叫做PRM800K的数据集,基于12k个问题,生成了75k个solution,共有800k个steps。

4,数据标记过程为对每一个steps进行标记。

5,数据标记时没有对全部的数据进行标记(因为有一些明显就错了),选择了能骗过PRM的数据集进行标记(也就是模型看不出有问题的,但结果是错的答案)

 

标签:标记,模型,笔记,学习,奖励,监督,Openai,强化,数据
From: https://www.cnblogs.com/alphainf/p/17473612.html

相关文章

  • (一)、C++学习随笔:指针
    北京时间2023年6月11日22点53分,天气总体晴,温度适宜。没写随笔差不多一年了,也从佛山的广发银行、美的外包跳槽到了深圳坂田这边的华为OD,JAVA或许是干的不太愿意深入了,想学习下C++。今天学习到C++的重点之一:指针,鄙人不才,记忆力不太好,所谓的好记性不如烂笔头,把学到的指针知识都记录下......
  • Django学习之路
    Django学习之路基于Jason的视频,收益匪浅.谢谢Jason的教诲.1、Django前戏2、Django基础3、Django路由层4、Django视图层......
  • ChatGPT学习心得一(使用node+react做了一个案例)
    ChatGPT学习心得一(使用node+react做了一个案例) 项目地址http://chat.xutongbao.top项目截图编辑编辑编辑 编辑编辑使用技术栈node+SQLite+redis+nginx+log4js+express+jenkins+cdn+react+antd+react-scrollbars-custom+iconfont+webpack+postman+axios+redux+immut......
  • CMake学习
    参考前言-《CMake菜谱(CMakeCookbook中文版)》-书栈网·BookStackTheArchitectureofOpenSourceApplications(Volume1)CMake(aosabook.org)CMakeReferenceDocumentation—CMake3.26.4DocumentationCMake从入门到精通-凌逆战-博客园(cnblogs.com)Ubun......
  • 深度学习应用篇-计算机视觉-视频分类[8]:时间偏移模块(TSM)、TimeSformer无卷积视频分类
    深度学习应用篇-计算机视觉-视频分类[8]:时间偏移模块(TSM)、TimeSformer无卷积视频分类方法、注意力机制1.时间偏移模块(TSM)视频流的爆炸性增长为以高精度和低成本执行视频理解任务带来了挑战。传统的2DCNN计算成本低,但无法捕捉视频特有的时间信息;3DCNN可以得到良好的性能,但计算量......
  • 深度学习应用篇-计算机视觉-视频分类[8]:时间偏移模块(TSM)、TimeSformer无卷积视频分类
    深度学习应用篇-计算机视觉-视频分类[8]:时间偏移模块(TSM)、TimeSformer无卷积视频分类方法、注意力机制1.时间偏移模块(TSM)视频流的爆炸性增长为以高精度和低成本执行视频理解任务带来了挑战。传统的2DCNN计算成本低,但无法捕捉视频特有的时间信息;3DCNN可以得到良好的性能,但计算......
  • JavaSE笔记
    Markdown学习标题:二级标题三级标题四级标题字体粗体斜体斜体加粗删除线引用学习markdown分割线图片超链接陈伟强的博客列表abcabc表格名字性别生日陈伟强男2002代码publicwindows常用快捷键ctrl+C:复制ctrl+V:粘贴ctrl+A:全......
  • 学习使用auto定义变量的用法
    学习使用auto定义变量的用法#include<stdio.h>intmain(){inti,num;num=2;for(i=0;i<3;i++){printf("num变量为%d\n",num);num++;{autointnum=1;printf("内置模板num变量:%d\n"......
  • 学习使用static的另一用法
    学习使用static的另一用法#include<stdio.h>intmain(){inti,num;num=2;for(i=0;i<3;i++){printf("num变量为%d\n",num);num++;{staticintnum=1;printf("内置模板num变量:%d\n&quo......
  • NumPy学习8
    今天学习了NumPy统计函数16,NumPy统计函数numpy_test8.py:importnumpyasnp'''16,NumPy统计函数NumPy提供了许多统计功能的函数,比如查找数组元素的最值、百分位数、方差以及标准差等。''''''1)numpy.amin()和numpy.amax()这两个函数用于计算数组沿指定轴的最......