网站首页
编程语言
数据库
系统相关
其他分享
编程问答
dro
2024-12-08
Offline Regularised Reinforcement Learning for Large Language Models Alignment
本文是LLM系列文章,针对《OfflineRegularisedReinforcementLearningforLargeLanguageModelsAlignment》的翻译。用于大型语言模型对齐的离线正则化强化学习摘要1引言2背景3直接奖励优化4实验5相关工作6结论和局限性摘要无论是通过人类反馈的强