首页 > 其他分享 >AI 相关术语了解记录

AI 相关术语了解记录

时间:2023-04-25 09:01:08浏览次数:42  
标签:术语 训练 记录 AI 模型 PPO 学习 Policy 强化

RLFH (Reinforcement Learning from Human Feedback)  从人类反馈中学习的强化学习

# 训练过程

Collect human feedback 收集人类反馈 

Train reward model 训练奖励模型

RM Reward Model 奖励模型

 

Train policy with PPO  训练策略模型

Policy Gradient RL ,策略梯度强化学习

PPO Proximal Policy Optimization,近端策略优化

 

LLM (Large language model) 大型语言模型

 

RL Reinforcement Learning 强化学习

强化学习是一种机器学习类型,它通过最大化奖励来训练代理在环境中做出决策

 

标签:术语,训练,记录,AI,模型,PPO,学习,Policy,强化
From: https://www.cnblogs.com/Cong0ks/p/17351547.html

相关文章

  • 解决npm install各种报错的6种方案 Error: Command failed: cmd.exe autoreconf -ivf
    报错示例:Error:Commandfailed:C:\Windows\system32\cmd.exe/s/c"autoreconf-ivf"gifsiclepre-buildtestfailedPSG:\code_all\my_webpack_webgl2021-5-17-dev_01\three151-demo>npminstallnpmnoticeBeginningOctober4,2021,allconnect......
  • 建个随笔记录版本
    因式分解模拟器2.0*修复了两个式子前后互换位置无法识别的错误*增加了正确答案存在时间*整体难度下调*修改了难度的选择部分,更加简洁*增加了很多注释https://files.cnblogs.com/files/blogs/777644/%E5%9B%A0%E5%BC%8F%E5%88%86%E8%A7%A3%E6%A8%A1%E6%8B%9F%E5%99%A82.0.zip?t=1......
  • 2023.4.24记录
    声明抽象基类Shape,由它派生出三个类,圆形Circle,矩形Rectangle,三角形Triangle,用一个函数输出三个面积。输入格式:在一行中依次输入5个数,圆的半径,长方形的高和宽,三角形的高和底,中间用空格分隔输出格式:圆的面积,长方形的面积,三角形的面积,小数点后保留2位有效数字,每个面积占一行。......
  • 记录自己每天干了什么,以及日记
    4.24虽说开始做瑞吉外卖了,但是做的基本没多少,也才配置了一下mysql的环境,idea今晚也不知道能不能装上,也才想起来周三有c++考试,要有大步的进展可能需要推迟几天了,背了一点单词,看了点数学网课……其实也没干啥事。开心点的是其实自己大一的目标已经完成了,偏科的英语四级也过了,蓝桥......
  • VSCode选中空行时光标自动回到行首位置的问题记录
    1、问题描述由于最近更换了VSCode编辑器,出现了一些和之前使用VS不一样的地方,比如当我按下回车新开一行时,会发现该行的格式是正确的,光标会在正确的位置,但是当我继续回车时,上一个空行的格式会被清掉,光标会回到行首2、解决方案1、首先通过RenderWhitespace=all打开了空格显示......
  • 飞腾CPU FT-2000/4 uboot下PHY调试记录
    飞腾爱好者技术交流群码公众号“乌拉大喵喵” 一、环境说明板子是FT-2000/4的开发板:固件版本:ft-2004c_u-boot-v2-Ver0.3_202112231001.tar.gzft2004c_v2.06_image_fix.rar 二、调试命令说明调试PHY主要用到的命令是mii,先查看下可用的命令:miidevice,缩写miidev,查看......
  • 解决Some index files failed to download.They have been ignored, or old ones used
    使用pingwww.baidu.com测试一下网络,如果出现:ping:www.baidu.com:Temporaryfailureinnameresolution就是网络问题了以下是解决办法,修改两处后重启即可,下面详细说明第一处修改的地方:sudovim/etc/systemd/resolved.conf修改DNS如下:[Resolve]DNS=8.8.8.8#FallbackD......
  • No qualifying bean of type 'org.apache.rocketmq.spring.core.RocketMQTemplate' av
    2023-04-2418:50:39.372WARN26732---[main]ConfigServletWebServerApplicationContext:Exceptionencounteredduringcontextinitialization-cancellingrefreshattempt:org.springframework.beans.factory.BeanCreationException:Errorcreating......
  • 让智慧物联赋能高效生产, AIRIOT助力数字化油田转型升级
    ​近年来,中国石油行业为了推进工业化和信息化深度融合,充分结合勘探开发、生产科研和经营管理的实际需求,积极通过信息化建设促进油田业务转型升级。在勘探开发与管理的领域中,油气生产物联网系统是一个极其重要的信息系统建设项目。利用该系统不但可以对生产过程进行可视......
  • 【c&c++】VScode报错error: ‘::main‘ must return ‘int‘ void main()
    在运行指针时终端出现error:‘::main’mustreturn‘int’voidmain()错误。源代码如下:#include<stdio.h>voidmain(){inta,*p,b,c,d,e;a=100;p=&a;/*(*&a)先进行&a运算,得a的地址,再进行*运算,即变量a的值*/b=*&a;printf("a=%d\n",a);......