首页 > 编程语言 >论文《Proximal Policy Optimization Algorithms》即PPO算法的代码及解读

论文《Proximal Policy Optimization Algorithms》即PPO算法的代码及解读

时间:2023-02-04 13:36:39浏览次数:47  
标签:train py PPO Optimization Algorithms policy model reward ref


代码 https://github.com/openai/lm-human-preferences

在train_policy.py文件

论文《Proximal Policy Optimization Algorithms》即PPO算法的代码及解读_强化学习


看出 有一个​​ref_policy​​作为ground-truth

在train_reward.py文件

论文《Proximal Policy Optimization Algorithms》即PPO算法的代码及解读_强化学习_02


看出 可以同时用于​​reward_model​​​自身的训练 和 用​​reward_model​​​对​​ref_policy​​打分


标签:train,py,PPO,Optimization,Algorithms,policy,model,reward,ref
From: https://blog.51cto.com/guotong1988/6037137

相关文章