1.为什么要学习强化学习?
训练大模型时,不能仅仅使用有监督微调,这是因为NLP中语言的多样性,很多答案的含义时一样的。并且有监督微调需要大量的高质量问答对,这需要耗费大量的人力与时间成本。那么强化学习的优化目标不再是让模型输出结果与标准答案相同,而是要使模型生成高质量回复。这样,模型在生成答案后,奖励模型可以对答案给出质量判断,质量排序。
1.为什么要学习强化学习?
标签:学习,模型,---,开坑,答案,强化 From: https://www.cnblogs.com/liuguangshou123/p/18031650