首页 > 其他分享 >Understanding plasticity in neural networks

Understanding plasticity in neural networks

时间:2023-03-27 11:36:52浏览次数:42  
标签:学习 plasticity neural 网络 损失 networks 可塑性 优化 我们

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

 

Arxiv 2023

 

Abstract

  可塑性是神经网络根据新信息快速改变预测的能力,对于深度强化学习系统的适应性和鲁棒性至关重要。众所周知,即使在相对简单的学习问题中,深度神经网络也会在训练过程中失去可塑性,但驱动这种现象的机制仍知之甚少。本文对可塑性损失进行了系统的实证分析,目的是从机理上理解这一现象,以指导未来有针对性的解决方案的发展。我们发现可塑性损失与损失景观曲率的变化密切相关,但它通常发生在缺乏饱和单元或发散梯度范数的情况下。基于这一见解,我们确定了许多参数化和优化设计选项,使网络能够在训练过程中更好地保持可塑性。我们通过对在Arcade学习环境中训练的深度RL智能体应用性能最佳的干预措施,即层规范化,验证了这些发现在更大规模学习问题中的实用性。

 

1. Introduction

  人们普遍观察到,经过训练以适应一系列不同学习目标的神经网络解决新任务的能力降低(Lyle等人,2021;Nikishin等人,2022;Dohare等人,2021)。当输入和预测目标之间的关系随时间发生变化时,可塑性损失最为严重,网络必须学会“覆盖”其先前的预测(Lyle等人,2021)。虽然这种场景在监督学习中相对罕见,但它们被融入了深度强化学习(RL)智能体的训练方式中。如果我们希望开发能够不断学习解决复杂任务的深度RL智能体,了解可塑性是如何丧失的,以及这种丧失是否可以减轻,这一点至关重要。促进可训练性的现有方法作用于各种可能导致可塑性丧失的潜在机制,包括层的重置(Nikishin等人,2022)和激活单元(Dohare等人,2021),以及特征的归一化(Kumar等人,2020;Lyle等人,2021)。虽然所有这些工作都观察到了性能的改进,但它们不太可能都通过相同的机制获得这些改进。因此,很难知道如何改进这些干预措施,以进一步保持可塑性。

  本文试图确定可塑性损失发生的机制。我们首先分析了两个可解释的案例研究,说明了自适应优化器和初始梯度下降都会导致可塑性损失的机制。先前的工作已经隐式或显式地推测,各种网络属性可能会导致可塑性损失:我们提出了一个伪造框架,该框架受到泛化因果稳健预测因子研究的启发(Dziugaite等人,2020),并利用该框架表明可塑性损失不能唯一归因于任何这些属性。虽然很难明确表征,但我们提供的证据表明,新任务对训练参数引起的损失景观的曲率是决定网络可塑性的关键因素。

  最后,我们完成了对方法的广泛实证分析,这些方法旨在提高网络在整个训练过程中导航其优化景观的能力,从架构选择到正则化和标准化方案。我们发现,被推测为平滑损失景观的架构,例如使用分类编码和层归一化的架构,对可塑性提供了最大的改进,而扰动参数或提供其他形式的正则化的方法往往看不到什么好处。为了测试这些发现的普遍性,我们将性能最好的干预措施,即层标准化应用于标准DQN架构,并在Arcade学习环境基准测试中获得了显著的性能改进。我们的结论是,控制损失景观的清晰度和优化器的稳定性为提高深度RL方法的稳健性和可用性提供了非常有前途的途径。

 

2. Background

  长期以来,人们一直认为,首先对网络进行一项任务的训练,然后再对第二项任务进行训练,会导致第一项任务的性能下降(French,1999)。这种现象被称为灾难性遗忘,已经被许多著作广泛研究。本文关注的是一种不同的现象:在某些情况下,在一系列不同的任务上训练神经网络,可能会导致在后续任务上的性能比训练相同架构的随机初始化网络所获得的性能更差。

 

2.1. Preliminaries

Temporal difference learning.

Loss landscape analysis.

 

2.2. Defining plasticity

  可塑性研究已经关注神经科学几十年了(Mermillod等人,2013;Abbott&Nelson,2000),但直到最近才成为深度学习的兴趣话题(Berariu等人,2021;Ash&Adams,2020)。计算学习理论文献中关于复杂性的经典概念(Vapnik,1968;Bartlett和Mendelson,2002)评估假设类是否包含捕获任意模式的函数,但对特定搜索算法(如梯度下降)找到这些函数的能力不可知,这对它们在实际深度学习系统中的应用提出了挑战。例如,一个十亿参数的神经网络架构可能有能力表示一类丰富的函数,但如果它的所有激活单元都饱和了,那么它就不能通过梯度下降来训练来实现这种能力。为了反映这种直觉,我们将使用可塑性一词来指代与问题相关的属性,它捕捉网络状态、优化过程和训练数据之间的相互作用,而容量将指代网络架构的固定属性。

  本工作将采用与Lyle等人(2021)类似的经验方法来定义可塑性。直观地说,我们的定义将衡量网络响应广泛的可能学习信号更新其预测的能力。我们考虑一个优化算法,它采用初始参数2和一些目标函数`:!R、 并输出一组新的参数。参数不一定是最优的:例如,O可以运行梯度下降五步。为了衡量网络在这种优化算法下更新预测的灵活性,我们考虑了一组损失函数L上的分布,每个损失函数由一些学习目标定义。例如,我们可以考虑回归损失的分布`f;X()=Ex X[(f(;X)

标签:学习,plasticity,neural,网络,损失,networks,可塑性,优化,我们
From: https://www.cnblogs.com/lucifer1997/p/17260990.html

相关文章