网站首页
编程语言
数据库
系统相关
其他分享
编程问答
Secretly
2024-12-19
你的语言模型实际是一个奖励模型!Direct Preference Optimization:Your Language Modelis Secretly a Reward Model
直接偏好优化:你的语言模型实际上是一个奖励模型