论文速读|ESRL: Efficient Sampling-based Reinforcement Learning for Sequence Generation
论文信息:
简介:
本文探讨了将强化学习(Reinforcement Learning, RL)应用于序列生成模型的背景。序列生成是一个长期决策问题,而RL特别适合优化长期奖励,例如序列级别的评分和人类反馈。此外,通过利用自回归生成模式,RL训练可以显著减轻暴露偏差问题。然而,在实际应用中,序列生成问题常常涉及大型动作空间(例如词汇表)和长动作序列(例如翻译),这对探索过程提出了严重的计算挑战,也是设计复杂采样方法的重要动机。
本文的动机在于提高RL在序列生成任务中的训练效率和减少内存消耗。通过减少不必要的探索和优化采样过程,可以使得RL方法更加实用,尤其是在资源受限的设备上。此外,通过改进采样策略,可以平衡探索和利用,从而提高模型的长期奖励,这对于序列生成任务的性能至关重要。
论文方法:
本文提出了一种名为ESRL(Efficient Sampling-based Reinforcement Learning)的高效采样方法。
该方法通过以下两种策略实现:
1)两阶段采样(Two-stage Sampling)
第一阶段使用自回归模式采样候选序列,但不涉及反向传播,因此不需要存储计算图。
第二阶段计算采样候选序列的概率,由于完整的输出序列已经存在,可以利用Transformer的并行计算能力,仅通过一次前向传递完成计算。这种方法有效地减少了内存占用。
2)动态采样(Dynamic Sampling)
首先估计模型的能力,然后根据估计的能力调整采样大小和温度,以执行适当和高效的采样。例如,使用BLEU分数和熵来估计模型的能力,然后根据能力分数调整采样大小,以减少不必要的探索。
论文实验:
根据Table 1的内容,论文的实验部分主要关注于比较不同采样大小(Sampling Size, SS)对机器翻译任务的影响,特别是在IWSLT'14德英(De-En)和WMT'14英德(En-De)数据集上。
实验比较了多种方法,包括最大似然估计(MLE)、REINFORCE、最小风险训练(MRT)以及提出的ESRL方法(包括随机、BLEU和熵三种不同的策略来调整采样大小)。
ESRL方法在训练效率(训练时间和内存消耗)方面一致优于REINFORCE和MRT方法。例如,在IWSLT'14 De-En数据集上,使用15个采样大小时,ESRL相比REINFORCE减少了约47%的内存消耗和39%的训练时间。在翻译质量方面,ESRL在所有基线方法中表现最佳。特别是在WMT'14 En-De数据集上,使用20个采样大小时,ESRL相比MLE提升了0.98的BLEU分数。通过比较“BLEU”和“COMET-22”列,可以观察到ESRL在这两个指标上都优于所有基线方法。
论文链接:
https://arxiv.org/pdf/2308.02223
标签:采样,NLP,速读,Efficient,Sampling,RL,序列,ESRL,方法 From: https://blog.csdn.net/2401_85576118/article/details/144730390