《RLPF: Reinforcement Learning from Prediction Feedback for User Summarization with LLMs》
链接:https://arxiv.org/pdf/2409.04421
文章介绍了一种新的强化学习方法 RLPF(Reinforcement Learning from Prediction Feedback),用于优化大型语言模型(LLMs)生成的用户摘要,以提高下游任务的性能。
文章的贡献包括:
- 引入了为用户建模和个性化系统生成自然语言用户摘要的新任务。
- 提出了 RLPF,这是一种新颖且易于实现的训练用户摘要器的方法,无需参考摘要或手工制作提示,同时保护用户隐私。
- 证明了 RLPF 在训练任务和未见任务上均优于基线。
- 在内在评估中发现 RLPF 在事实性、抽象性和可读性方面有显著改进。
1. 引言
- 大型语言模型(LLMs)在个性化预测方面展现出巨大潜力,但用户历史数据的噪声和长度给有效利用带来挑战。
- 现有的预训练 LLMs 可能生成简洁但缺乏上下文的摘要,这限制了它们在个性化系统中的实用性。
2. RLPF 方法
-
强化学习框架
- 状态:用户的历史交互数据。
- 动作:基于用户上下文生成的摘要。
- 策略模型:将用户上下文映射到用户摘要的模型。
- 奖励:使用预训练的 LLM 根据用户摘要进行预测,并与实际结果比较以计算奖励。
- 奖励计算
- 预测反馈奖励:基于 LLM 预测的未来活动与实际活动之间的匹配程度。
- 长度奖励:鼓励生成较短的摘要,以提高效率和可读性。
- 摘要模型:训练模型从原始活动数据生成简洁的用户摘要。
- 基于预测的奖励模型:通过衡量生成摘要在下游预测任务中的有效性来计算奖励。
- 反馈循环:使用奖励更新摘要模型,并通过额外奖励鼓励更短的摘要长度。
3. 实验细节
- 在四个真实世界用户交互数据集上进行实验:MovieLens 2015 和 2003、Amazon Review 和 Google Local Review。
- 评估指标包括预测性、事实性、抽象性和可读性。
4. 结果
- RLPF 在下游任务性能和摘要质量方面均显著优于基线方法,最高可提升 22%。
- RLPF 在 16 个未见任务和/或数据集上提高了性能,展示了其泛化能力。
- RLPF 还实现了在减少上下文长度 74% 的同时提高性能。
5. 讨论
- RLPF 展示了在增强个性化方面的潜力,但使用用户数据引发了隐私和数据泄露的担忧。
6. 相关工作
- 文章讨论了文本摘要、用户建模和从 AI 反馈中学习的相关工作。
7. 结论
- RLPF 是一种有效的方法,可以从原始活动数据生成简洁且易于理解的用户摘要,通过直接优化摘要生成过程来提高下游预测性能。