RLFH (Reinforcement Learning from Human Feedback) 从人类反馈中学习的强化学习
# 训练过程
Collect human feedback 收集人类反馈
Train reward model 训练奖励模型
RM Reward Model 奖励模型
Train policy with PPO 训练策略模型
Policy Gradient RL ,策略梯度强化学习
PPO Proximal Policy Optimization,近端策略优化
LLM (Large language model) 大型语言模型
RL Reinforcement Learning 强化学习
强化学习是一种机器学习类型,它通过最大化奖励来训练代理在环境中做出决策
标签:术语,训练,记录,AI,模型,PPO,学习,Policy,强化 From: https://www.cnblogs.com/Cong0ks/p/17351547.html