ESRL

2024-12-27NLP论文速读(AAAI 2024)|面向序列生成的基于高效采样强化学习 (Efficient Sampling-based Reinforcement Learning for……）
论文速读|ESRL:EfficientSampling-basedReinforcementLearning forSequenceGeneration论文信息：简介：本文探讨了将强化学习（ReinforcementLearning,RL）应用于序列生成模型的背景。序列生成是一个长期决策问题，而RL特别适合优化长期奖励，例如序列级别的评分