dro

2024-12-08Offline Regularised Reinforcement Learning for Large Language Models Alignment
本文是LLM系列文章，针对《OfflineRegularisedReinforcementLearningforLargeLanguageModelsAlignment》的翻译。用于大型语言模型对齐的离线正则化强化学习摘要1引言2背景3直接奖励优化4实验5相关工作6结论和局限性摘要无论是通过人类反馈的强