RLHF不擅长推理、事实等固定答案的优化,擅长自由度更高的生成;RLHF的上限取决于预训练模型本身的能力,对于多项选择这种需要推理、知识和输出格式固定的任务,预训练后的GPT-4[2]能到73.7%,RLHF之后只到了74%,单独看很多任务还有下降。
标签:训练,只到,RLHF,擅长,固定,推理 From: https://www.cnblogs.com/end/p/17443844.htmlRLHF不擅长推理、事实等固定答案的优化,擅长自由度更高的生成;RLHF的上限取决于预训练模型本身的能力,对于多项选择这种需要推理、知识和输出格式固定的任务,预训练后的GPT-4[2]能到73.7%,RLHF之后只到了74%,单独看很多任务还有下降。
标签:训练,只到,RLHF,擅长,固定,推理 From: https://www.cnblogs.com/end/p/17443844.html