网站首页
编程语言
数据库
系统相关
其他分享
编程问答
IRL
2024-09-19
Imitating Language via Scalable Inverse Reinforcement Learning
本文是LLM系列文章,针对《ImitatingLanguageviaScalableInverseReinforcementLearning》的翻译。通过可扩展的逆向强化学习模仿语言摘要1引言2方法3实验4相关工作5讨论6结论摘要大多数语言模型训练都建立在模仿学习的基础上。它涵盖了预训练、监