Neuromodulated Spike-Timing-Dependent Plasticity, and Theory of Three-Factor Learning Rules

标签：Theory Plasticity 突触 Dependent al 奖励 et STDP 神经元

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

FRONTIERS IN NEURAL CIRCUITS, (2016): 85-85

Abstract

　　经典的赫布学习强调突触前和突触后活动，但忽视了神经调节剂的潜在作用。因为神经调节剂传递有关新奇性或奖励的信息，在神经调节剂对突触性可塑性和经典条件反射学习的有效性的影响中，同时也决定了对这些感觉刺激的反应中是否有新的记忆。在这篇综述中，我们重点讨论了与一个或几个相神经调节信号相关联的突触前和突触后活动的时间要求。在强调抽象概念模型和数学理论的同时，我们还讨论了神经调节的时序依赖可塑性的实验证据。我们强调了突触机制的重要性，它来自于感觉刺激和神经调节信号之间的时间间隔，并针对包括突触前活动、突触后变量以及神经调节剂在内的新赫布三因素学习开展了工作。

Keywords: STDP, plasticity, neuromodulation, reward learning, novelty, spiking neuron networks, synaptic plasticity (LTP/LTD)

1. INTRODUCTION

　　在暴露于重复的感官输入流之后，例如高速公路上经过的汽车，人类不会记住每个输入配置(每辆汽车)，但通常只记住一些相关的配置，例如最显著的、新颖的或令人惊讶的项，例如，与事故有关的汽车。同样，在尝试解决运动任务后，例如，孩子试图打开瓶子，孩子不会记住所有失败的尝试，但只会记住那些有回报的尝试。奖励、新奇或惊喜与神经调节信号相关，如多巴胺、乙酰胆碱或去甲肾上腺素(Schultz, 2002; Ranganath and Rainer, 2003; Yu and Dayan, 2005)。多巴胺对于动作的强化至关重要，这与行为学习理论一致(Waelti et al., 2001; Steinberg et al., 2013)，而其他一些神经调节剂与新记忆的产生有关(Gu, 2002; Hasselmo, 2006; Moncada and Viola, 2007)。

　　新记忆的形成以及动作或技能的学习被认为与突触连接的变化有关(Hebb, 1949; Martin et al., 2000)。受Hebb假设(Hebb, 1949)影响的突触可塑性的传统方法侧重于突触前和突触后神经元的联合激活，作为突触变化的驱动因素(Bliss and Gardner-Medwin, 1973; Artola and Singer, 1993; Malenka and Nicoll, 1999)。脉冲时序依赖可塑性(STDP; Gerstner et al., 1996; Markram et al., 1997; Bi and Poo, 1998; Sjöström et al., 2001)，可以被认为是由突触前和突触后神经元中的孤立脉冲诱导的Hebbian突触可塑性的时间精确形式(可以参见综述，例如Abbott and Nelson, 2000; Bi and Poo, 2001; Sjöströ and Caporale, 2008; Sjöström and Gerstner, 2010; Markrametal., 2011)。在许多但不是所有的准备工作中，突触前神经元在突触后神经元产生突触增强前几毫秒的重复激活，而反向时间产生抑制(Abbott and Nelson, 2000)。在理论模型中，这种形式的可塑性产生了许多有吸引力的功能特征(Gerstner et al., 1996; Kempter et al., 1999; Song et al., 2000; Song and Abbott, 2001; Clopath et al., 2010)。

　　然而，STDP的功能，以及更普遍的Hebbian学习规则的功能，仅限于无监督学习任务的类别(Hertz et al., 1991)。无监督学习的目的是使系统适应环境的统计特性。而无监督学习是发展可塑性的驱动力之一，Hebbian学习，STDP，以及其他无监督学习有意忽略任何有关"奖励"、"成功"、"惩罚"或"新奇"的信息。关于神经调节信号如何与神经活动相互作用以影响突触可塑性、学习和最终行为的问题(Gu, 2002; Hasselmo, 2006; Calabresi et al., 2007)。

　　最近，一些实验研究已经掌握了控制突触前和突触后脉冲活动以及神经调节剂浓度的技术难点，以研究它们对突触可塑性的综合影响(Seol et al., 2007; Pawlak and Kerr, 2008; Shen et al., 2008; Pawlak et al., 2010)。平行的理论研究在更基本的层面上探索了突触可塑性规则的宇宙，这些规则可能会在神经回路中实现学习，从而使正式的神经网络能够记住新的刺激序列(Brea et al., 2011; Rezende et al., 2011; Brea et al., 2013; Rezende and Gerstner, 2014)或学习有益的技能(Xie and Seung, 2004; Pfister et al., 2006; Baras and Meir, 2007; Farries and Fairhall, 2007; Florian, 2007; Izhikevich, 2007; Legenstein et al., 2008; Di Castro et al., 2009; Potjans et al., 2009; Urbanczik and Senn, 2009; Vasilaki et al., 2009; Frémaux et al., 2010, 2013)。

　　虽然之前已经回顾了神经调节、可塑性和行为学习的更广泛领域(Martin et al., 2000; Gu, 2002; Reynolds and Wickens, 2002; Schultz, 2002, 2006; Hasselmo, 2006; Shohamy and Adcock, 2010; Lisman et al., 2011; Nadim and Bucher, 2014)，这篇综述主要关注神经调节影响下的STDP案例及其与学习模型的关系。我们首先指出标准Hebbian学习的局限性，并勾勒出神经调节影响下的突触可塑性概念。然后，我们回顾了将STDP范式与神经调节相结合的实验研究。最后，我们在统一的理论框架中总结了神经调节剂和STDP联合作用的模型，并确定了未来实验的开放问题。

2. BASIC CONCEPTS: HEBBIAN AND MODULATED HEBBIAN PLASTICITY

　　行为学习和记忆被认为与长期的突触变化有关(Hebb, 1949; Barnes, 1979; Morris et al., 1986; Bliss and Collingridge, 1993; Martin et al., 2000)，可以通过长期增强(LTP)(Lømo, 1964; Bliss and Lømo, 1973)和长期抑制(LTD)(Lynch et al.,1977; Levy and Stewart,1983)协议或STDP (Markram et al., 1997; Bi and Poo, 1998; Sjöström et al., 2001)实验诱导。在返回到神经调节STDP的实验数据之前，我们在本节讨论了影响我们当前对突触可塑性的思考的赫布学习的基本概念(Hebb,1949)(Malenka and Nicoll, 1999; Bliss et al., 2003; Lisman, 2003)。

　　赫布可塑性(Hebb, 1949)描述了由突触前和突触后神经元的联合激活引起的突触LTP (Brown et al., 1991; Gerstner et al., 2014)。为了形式化赫布可塑性的思想，我们通过简写"pre"来表示突触前神经元的脉冲序列。类似地，突触后神经元的状态，包括其(以往的)脉冲序列或其他重要变量，用"post"来概括。在数学符号中，在赫布学习期间，权重 w 从突触前到突触后神经元的变化可以描述为：

其中描述了权重 w 的变化率，H 是突触前脉冲序列与突触后神经元的状态组成的一些任意函数。

　　赫布学习的实验支持来自于观察到突触前和突触后神经元的共同激活可以诱导LTP或LTD，这取决于突触前和突触后神经元的相对发放频率和时间(Levy and Stewart, 1983; Malenka and Nicoll, 1999; Abbott and Nelson, 2000; Bi and Poo, 2001; Markram et al., 2011)和突触后神经元的电压(Artola and Singer, 1993; Sjöström et al., 2001; Sjöström and Gerstner, 2010)。换句话说，突触前和突触后神经元的活动是诱导可塑性的关键因素。

　　STDP是赫布可塑性的一个典型例子(Bi and Poo, 2001; Morrison et al., 2008)。在最简单的STDP模型中，突触后神经元的状态以其最近的发放时间为特征。公式(1)表明突触权重的变化取决于突触前和突触后神经元的脉冲之间的一致性(Kempter et al., 1999; Song et al., 2000; Gerstner and Kistler, 2002; Morrison et al., 2008)。因此，STDP以及其他赫布学习规则对神经元之间的统计相关性很敏感(Kempter et al., 1999; Gerstner et al., 2014)。使用机器学习理论的标准分类，我们可以说赫布学习是"无监督的"(Hertz et al., 1991; Gerstner et al., 2014)，因为它没有包含突触变化是否有用的概念。

　　从理论的角度来看，无监督学习是一个相对较弱的范式，因为无监督学习可以解决的学习问题的类别是有限的。然而，鉴于下一节讨论的实验结果，我们可能会在数学图片中包含一个或几个神经调节剂，它们将"控制"赫布可塑性，以便在适当的时刻发生突触的上调或下调。如果这些神经调节器传达关于刺激的新颖性(或由其引起的惊喜)或动作的成功(或响应的外部奖励)的信息，那么由此产生的学习规则不再是"无监督的"，而是变得更强大。为了说明可塑性在神经调节剂影响下的潜在功能，我们关注两种范式，基于奖励的学习和基于新颖性的学习。

图1|假设的神经调节突触可塑性的功能作用。(A-C) 奖励调节学习 (A) 示意性基于奖励的学习实验。动物学习停止器在T-迷宫中通过带奖励的反复试验形成所需的动作序列(例如，直行，然后左转)(奶酪符号代表奖励位置)。(B) 动物在环境中的当前位置(“位置”)由海马中的活动细胞集合表示。这些细胞为神经元(例如背侧纹状体)提供食物，这些神经元在选择点为高级动作编码，例如，“左转”或“右转”。这些神经元反过来投射到运动皮层神经元，负责详细执行动作。成功信号，代表在行为层面(即食物或没有食物)的动作结果，调节(绿色箭头)在突触前和突触后活动(实线黑色连接)标记的那些突触的可塑性诱导，但在突触前神经元或突触后神经元静止(虚线连接)的那些突触中没有。请注意，每个大脑区域之间可能存在几个中间层。(C) 神经调节时间。当突触前和突触后神经元的动作电位发生在毫秒的时间尺度上时，代表“奖励减去期望奖励”的成功信号出现在更晚(时间轴断裂)。(D-F) 神经网络中的新奇调节学习。(D) 新奇是由与已有经验不匹配的刺激的发生来定义的。在这个例子中，神经网络已经被训练来识别一个苹果。第一次看到香蕉是识别失败并且触发了新奇信号。(E) 用于新奇学习任务的神经调节神经网络示意图。神经组件代表已知概念。这里展示了“香蕉”刺激，未能激活“苹果”神经元，但激活了一组其他神经元，这些神经元将在未来编码“香蕉”概念。新奇信号，与突触前和突触后同时发生香蕉神经元的激活确保香蕉“装配体”神经元之间的突触(实线)得到加强。“苹果”装配体的突触接收相同的神经调节信号，但不会改变，因为突触前或突触后神经元不会同时活跃。(F) 神经调节时间。与基于奖励的情况相反，新奇信号可以与神经活动同步，或稍早或稍晚出现。(G) 神经调节剂和功能性作用之间的关系示意图。特定的神经调节剂(例如，多巴胺)可以传递信号，传达新奇和成功的混合物(绿轴)。新事件(灰点)可以同时令人惊讶和有益，并导致乙酰胆碱和多巴胺的同时释放，比例不同(黑轴)。

2.1. Conceptual Example: Reward-Based Learning

2.2. Conceptual Example: Novelty-Based Learning

　　突触可塑性的另一个潜在的角色调节出现在新刺激的学习过程中。熟悉的视觉刺激，已经有好几次，如果重新感知，不需要记忆，而新奇有趣的刺激应该被保存(Carpenter and Grossberg, 1988)。

2.3. Conceptual Role of Neuromodulators in Plasticity

3. EXPERIMENTAL EVIDENCE FOR NEUROMODULATION OF STDP

　　STDP由配对协议诱导，其中突触前和突触后脉冲在受控序列中诱导(Markram et al., 1997; Bi and Poo, 1998; Sjöström et al., 2001)。回顾STDP实验，其中神经调节在配对协议期间或之后被操纵。

3.1. Questions Regarding Modulated STDP

3.2. STDP Protocols in Conjunction with Neuromodulators

3.3. Traditional Plasticity Protocolsin Conjunction with Neuromodulators

4. THEORIES OF MODULATED STDP

　　实验数据的稀缺性以及观察到的神经调节剂与突触可塑性相互作用的复杂性对理论家提出了挑战：现阶段不可能用现有数据建立和约束可塑性模型。此外，虽然来自例如多巴胺能或胆碱能神经元的相位神经调节剂信号在许多大脑区域都可用，但它们对不同神经元和突触类型的作用不同(Gu, 2002)。鉴于现象的多样性和突触类型的多样性，具有一组参数的单一统一模型是不可预期的。相反，理论神经科学家的目标是建立一个数学框架，使他们能够通过在同一建模框架中选择不同的参数来实现不同的可塑性现象。

　　作为迈向这样一个框架的第一步，理论家提出了一些基本问题，例如：单个突触应该如何变得与行为相关？什么是赫布学习原则的理想泛化，以便整个大脑能够解决由奖励、惩罚、新颖性、注意力或惊喜强化的复杂学习任务？

　　在回顾为回答这些问题而采取的理论方法之前，我们需要介绍一个数学框架，该框架将允许我们在神经调节的影响下对现有的STDP模型进行分类。

4.1. Formalization of Modulated Hebbian Plasticity

　　虽然赫布学习规则有两个主要因素，即突触前活动和突触后神经元的状态，但受神经调节剂影响的突触可塑性规则在下文中将被称为"三因素规则"。一般而言，任何包含神经调节的三因素突触可塑性规则，以及突触前和突触后活动，都可以写成：

其中表示特定突触从突触前神经元到突触后神经元的权重变化率。右侧的变量M是调节器信号。因为它通常被许多突触接收和共享，所以它的效果有时被称为"异突触调节"(Bailey et al., 2000)。变量M代表一个外在信号，它既不是由突触本身也不是由突触前和突触后神经元产生的(Marder, 2012)。在理论文献中，变量M有时被称为全局因子，因为M的时间过程传递的信息对许多(但不一定是所有)神经元和突触并行可用(Izhikevich, 2007; Frémaux et al., 2013)。如前所述，首字母缩略词"pre"和"post"分别代表突触前神经元的脉冲序列和突触后神经元的状态。"pre"和"post"被称为突触更新规则的局部因素，在某种意义上，一个特定的突触前神经元的脉冲传递的信息和一个突触后神经元的状态在连接这两个神经元的突触(或突触)(而不是其他突触)可用。F 是函数，其细节决定了学习规则的确切类型。由于三因素规则是赫布原始概念的现代泛化，因此也被称为"neo-Hebbian" (Lisman et al., 2011)。

　　控制突触前脉冲、突触后活动和神经调节(见上一节)的实验粗略地勾勒出我们可以用于 F 的可能候选函数的空间。然而，由于数据稀缺，目前无法从实验数据中提取特殊地函数 F。相反，理论家提出了可以扮演 F 角色的潜在候选函数。特别是，三个变量的函数 F 有时被假设为由"Hebb-like"项F₁(pre, post)乘以调节函数g₁(M)组成，因此。或者，神经调节剂可以直接改变突触后活动，因此，但也有其他选择。

　　原则上，上述调节突触可塑性的数学框架应该适用于各种神经调节剂。例如，蓝斑中释放去甲肾上腺素的神经元的相位信号与对任务特定目标的集中注意力有关(Aston-Jones and Cohen, 2005)可以影响突触可塑性并在公式(2)中发挥调节器M的作用。同样，在调节任务中，与奖励相关的多巴胺信号(Schultz et al., 1997; Schultz, 2002)可以在公式(2)中扮演调节器M的角色。特别是，最近的几项研究提出了将基于奖励的行为理论与另一方面的个体神经元和突触水平的学习模型联系起来的模型。在下文中，我们将重点放在奖励驱动的学习模型上，并将它们置于上述三因素规则的框架中。

4.2. Policy Gradient Models: R-max

　　获得函数 F 候选的几个数学方案之一是专注于奖励驱动学习的问题，并从迭代奖励最大化原则中推导出突触可塑性规则(Xie and Seung, 2004; Pfister et al., 2006; Baras and Meir, 2007; Florian, 2007; Di Castro et al., 2009; Urbanczik and Senn, 2009; Vasilaki et al., 2009; Frémaux et al., 2010)。在下文中，从奖励最大化导出的规则称为R-max。更具体地说，R-max可塑性规则源于将策略梯度方法(Williams, 1992; Baxter and Bartlett, 2001)应用于随机脉冲神经元模型。突触"资格迹"源于理论考虑，有效地弥合了神经活动和奖励信号之间的时间差距。

　　假设突触前神经元将脉冲序列"pre"发送到带有脉冲序列"post"的突触后神经元。类似于赫布学习突触将形成瞬态记忆的突触前脉冲和突触后脉冲之间的巧合。这种短暂的记忆，在理论文献中称为"资格迹"，在实验文献中称为"标签"，在时间尺度τ_e上衰减。然而，突触的实际变化需要额外的神经调节信号M (Crow, 1968)。从概念上讲，神经调节器可以针对特定的突触子集，或大脑中突触的一个大的、随机的部分。我们强调，即使解剖分支模式是非特异性的，也只有先前已由资格迹标记的突触才会改变(图4B)。

　　在R-max理论中，资格迹根据：

其中<·|·>表示条件期望值，H 是赫布函数，即它表示突触前和突触后神经元的联合活动。在由来自一个或多个突触前神经元的兴奋性突触后电位(EPSP)驱动的随机脉冲突触后神经元的特殊情况下，函数 H 表示由突触后脉冲时评估的突触前脉冲触发的EPSP的值：这类似于STDP窗口的"pre-before-post"部分(图3A)。因此，用于推导R-max规则的最大化原则对"pre-before-post"时序做出了预测，但没有对"post-before-pre"进行预测(事实上，"post-before-pre"并没有事情)。虽然EPSP的形状应该与STDP窗口的"pre-before-post"部分相匹配的具体预测特定于一个特定的脉冲神经元模型，但R-max的原理可以推广到其他神经元模型。

　　如前所述，资格迹 e 标志着突触的改变(Crow, 1968)，但其本身不会导致突触权重的变化。权重变化需要神经调节剂 M 的存在，并且与其成比例：

其中 M 是神经调节剂。在R-max中，M 可以等于奖励(即，M = R)或通过偏差 b (即，M = R - b)校正。

　　公式(3)和(4)的学习规则可以定性描述如下(另请参见图5A)。H(pre, post)项检测突触前和突触后脉冲之间的重合，其中重合的时间要求由EPSP的持续时间ε控制。减去期望的重合次数<H(pre, post)>：结果(由图5A中的左框表示)因此是观察到的前后重合与期望的前后重合数的偏差。然后用指数形函数对该偏差进行低通滤波，以产生资格迹 e，然后再乘以奖励。指数的时间常数τ_e来自公式(3)的积分，并确定了前后重合与奖励之间的最大间隔。较大的τ_e值意味着在很久以前发生的突触前和突触后神经元的同时活动在收到奖励时仍然被突触记忆。因此，具有较长时间常数τ_e的资格迹允许弥合赫布巧合(发生在选择动作的那一刻)和奖励交付之间的时间差距(图4)。然而，较小的τ_e值意味着奖励必须与神经活动同时发生，或者与神经活动相比最多稍微延迟。

　　R-max是协方差规则的一个示例(Loewenstein and Seung, 2006)，因为突触的期望演化对奖励 R 和赫布项之间的协方差敏感：

其中协方差在时间尺度τ_e上进行分析。协方差规则具有与操作性条件反射匹配法则相关的通用属性(Loewenstein and Seung, 2006; Loewenstein, 2008)。

4.3. Phenomenological Models: R-STDP

　　虽然上一节中讨论的学习规则可以严格地从优化原则("策略梯度")推导出来，但已经提出了基于更多启发式考虑的其他规则。一个突出的例子是奖励调节的STDP (R-STDP)，它已在多个出版物中进行了研究(Farries and Fairhall, 2007; Florian, 2007; Izhikevich, 2007; Legenstein et al., 2008; Vasilaki et al., 2009; Frémaux et al., 2010; Friedrich et al., 2011)。

　　主要思想是通过奖励项来调节"标准"STDP(图5B中的左框)的结果。突触资格迹(图5B中的中间框)存储STDP结果的临时内存，以便在收到延迟奖励信号时仍然可用。如果将传统赫布STDP的时序条件(或"学习窗口")(Gerstner et al., 1996; Kempter et al., 1999; Abbott and Nelson, 2000; Song et al., 2000)写成STDP(pre, post)，突触资格迹以最近脉冲时间巧合的运行平均值的形式保持瞬时记忆：

其中τ_e是资格迹的时间常数。运行平均值等价于低通滤波器(图5B中的中间框)。

　　在R-STDP中，当神经调节剂M = R - b发出信号 R 偏离基准 b 时，突触权重 w 发生变化，

在大多数出版物中，基准选择等于平均奖励b = <R>，这使得R-STDP为一个协方差规则。事实上，如果公式(7)中的基准 b 与平均奖励不同，则学习规则不能作为基于奖励的学习规则正确发挥作用(Frémaux et al., 2010)。

　　如果我们对公式(6)进行积分，我们可以将 e 写为过去脉冲时间重合的运行平均值e = 。在这种情况下，R-STDP可以总结为单个公式：

其中，基准是期望奖励，而赫布项H(pre, post)是过去脉冲时间巧合的运行平均值。我们对平均奖励<R|pre>的表示强调必须在刺激特定的式样中评估平均奖励。

　　大脑如何评估平均奖励？在最简单的情况下，平均奖励可能是过去经验的运行平均值。事实上，如果智能体多次重复相同的学习任务，过去奖励的运行平均值是平均奖励的极好近似值，并且智能体可以学习复杂的行为任务(Frémaux et al., 2010)。但是，如果智能体必须并行学习两个(或更多)任务，则简单的运行平均是没有用的：在非平凡的情况下，不同的学习任务有不同的奖励，但运行平均会消除这些差异，因此没有学到一个任务(Frémaux et al., 2010; Herzog et al., 2012)。

　　为了实现多个任务的并行学习，运行平均值必须是特定于任务的(Frémauxetal., 2010)。如果R-STDP是通过特定于任务的奖励平均来实现的，则R-STDP会变成协方差规则的示例：

这等价于公式(5)，即带均值奖励减法的R-max和R-STDP共同计算奖励和赫布项 H 的协方差。

　　具有神经调节信号的R-STDP是最广泛使用的奖励调节STDP形式(Farries and Fairhall, 2007; Florian, 2007; Legenstein et al., 2008; Vasilaki et al., 2009; Frémaux et al., 2010; Friedrich et al., 2011)。然而，Izhikevich研究了一种不同的场景，我们称之为"门控赫布"学习：给予稀疏的正奖励以加强特定突触处前后脉冲事件的发生(Izhikevich, 2007)。在那种情况下，公式(9)不成立，而是我们有：

Izhikevich平衡了STDP窗口和网络活动，使得<H(pre, post)>略为负：结合正奖励(<R> > 0)，公式(10)左侧的第二项为负，并导致向下漂移以下降突触权重。

　　如果奖励是根据特定的前后脉冲配对"目标"的出现有条件地给予，则公式(10)左侧的协方差项对于所有连接都为零，除了代表目标对的单个突触。因此，上述形式的R-STDP在一项任务中是成功的，其目标是加强特定目标突触并抑制所有其他突触。换句话说，在公式(10)的R-STDP模型中，奖励被用作二值门控信号，以从一般突触抑制切换到特定突触的增强。

　　总之，R-STDP依赖于两个关键假设。首先，赫布可塑性受到奖励的调节。奖励与多巴胺的关系以及多巴胺对STDP的调节的证据已在上文进行了综述。其次，突触由资格迹标记，以弥合赫布巧合与奖励信号发生之间的时间差距。资格迹是存储在突触位置的过去赫布巧合事件的瞬时记忆。资格迹的生物学合理性及其与突触"标签"的潜在关系(Frey and Morris, 1997; Bailey et al., 2000; Redondo and Morris, 2011)将在讨论部分进行探讨。

4.4. Temporal-Difference Learning with STDP

　　在涉及奖励的实验中，强化学习中出现的时序差分(TD)误差与多巴胺能神经元的活动模式之间存在很强的概念相似性(Schultz et al., 1997; Waelti et al., 2001; Schultz, 2002; Doya, 2007)。在TD学习方法(Sutton and Barto, 1998)中，动物进化的环境是用状态来描述的。从一个状态到下一个状态的转换是由一个动作的选择决定的。为每个状态分配一个价值(状态价值)，该价值对应于动物从该特定状态开始时能够期望的未来奖励量。给定每个状态的正确价值，最优策略包括选择导致具有最高价值的可用状态的动作。因此，要解决的关键问题是学习与每个状态相关的正确价值。

　　天真地，人们会尝试通过从给定状态开始运行许多试验并观察获得的平均奖励回报来解决这个问题。然而，TD方法(Sutton and Barto, 1998)使用受动态规划启发的算法思想更有效地解决了这个问题(Bellman, 1957; Bertsekas, 1987)：不同状态之间的状态价值的一致性要求一个状态下的期望奖励(在时间 t 访问)等于在转换到下一个状态期间获得的平均奖励加上在时间t+1访问的状态中的期望奖励。这种一致性关系应该适用于正确的价值：如果智能体还不知道真实价值，但使用瞬时估计，则一致性关系的不匹配δ^TD，称为时序差分(TD)误差，为：

如果使用δ^TD中包含的信息更新估计的状态价值，则估计的状态价值最终会收敛到真正的解(Dayan, 1992)。与TD误差成比例的更新是TD学习的本质。

　　连接TD和大脑的早期建模研究不使用脉冲神经元，而是依靠动态系统网络来解释TD计算如何与解剖结构相关联(Houk et al., 1995; Suri and Schultz, 1998, 1999, 2001; Joel et al., 2002)。其他研究侧重于在人工神经网络中实施强化学习算法，特别是导航问题(Arleo and Gerstner, 2000; Foster et al., 2000; Sheynikhovich et al., 2009)。

　　在模拟神经网络的实现中，状态价值通常表示为称为"critic"的子结构，从中提取TD误差；动作的选择发生在称为"actor"的不同子结构中。最近，Potjansetal. (2009, 2011)使用了一个LIF神经元的actor-critic网络来解决一个简单的5 × 5网格世界任务(使用脉冲神经元)。他们提出了新颖的、非STDP学习规则，这些规则明确使用了离散状态转换。

　　在Frémaux等人(2013)中，一个用于脉冲神经元的TD学习规则是分析推导出来的，它具有以下形式：

其中δ^TD是TD误差的连续时间版本，H 是资格迹和用于计算突触前和突触后活动之间的赫布重合的运行平均值。

　　分析得出的赫布项是具有EPSP形状的前后重合窗口。但是，使用双相STDP窗口(图5C中的左框)会导致有效且运行良好的学习规则，我们将其称为TD-STDP。

4.5. Beyond Rewards: Other Models of Three-Factor Learning Rules

　　在上述所有示例中，我们都专注于以多巴胺作为候选神经调节剂的基于奖励的学习模型(Schultz et al., 1997; Waelti et al., 2001; Steinberg et al., 2013)。然而，三因素规则的一般框架(公式2)也可以应用于各种学习范式，其中神经调节剂 M 的作用可能不同。例如，为了学习脉冲神经元群体中的二值决策，已经提出了与群体活动成比例的神经调节信号(Urbanczik and Senn, 2009; Friedrich et al., 2011)。神经调节器对群体决定进行编码，并允许单个神经元将其私人脉冲历史与群体的决定进行比较。虽然这样的方案可以帮助二值决策制定并且在生物学上是合理的，但尚不清楚它如何推广到非二值决策问题，例如运动学习。另一个例子是在多层脉冲神经网络中学习复杂序列。学习是最有效的，如果它是由一个"惊喜"信号触发的，与期望的新奇相比，它传达了观察状态的新奇(Brea et al., 2013; Rezende and Gerstner, 2014; 另见Schmidhuber, 1991)。例如在Rezende和Gerstner (2014)中，权重变化直接取决于赫布函数 H 乘以传达惊喜的神经调节剂 S，即，到达大部分大脑中的神经元的神经调节剂的相位信号是很好的候选者，可以传递惊讶或好奇信号，从而控制可塑性(Gu, 2002; Lisman et al., 2011; Gruber et al., 2014)。在分子知识的现阶段，分子机制的详细模型最多只能是假设性的(Nakao et al., 2010)。

5.DISCUSSION

5.1. A General Framework for Reward-Modulated STDP

5.2. Subtraction of the Expected Reward

5.3. Eligibility Traces and Synaptic Tagging

5.4. Role of the Post-before-pre Part of the STDP Window

5.5. Implications for the Search of Experimental Evidence

5.5.1.Outlook

标签：Theory,Plasticity,突触,Dependent,al,奖励,et,STDP,神经元
From： https://www.cnblogs.com/lucifer1997/p/15686229.html

Neuromodulated Spike-Timing-Dependent Plasticity, and Theory of Three-Factor Learning Rules

相关文章

赞助商

阅读排行