代码 https://github.com/openai/lm-human-preferences
在train_policy.py文件
看出 有一个ref_policy
作为ground-truth
在train_reward.py文件
看出 可以同时用于reward_model
自身的训练 和 用reward_model
对ref_policy
打分
看出 有一个ref_policy
作为ground-truth
看出 可以同时用于reward_model
自身的训练 和 用reward_model
对ref_policy
打分