【译文】利用RNN从神经数据中重建计算系统动力学
文章:Reconstructing computational system dynamics from neural data with recurrent neural networks
DOI:https://doi.org/10.1038/s41583-023-00740-7
From Nature Reviews Neuroscience | Volume 24 | November 2023 | 693–710
引言
大脑是如何实现认知功能的?理论神经科学的一个长期信条认为,神经科学中的计算可以用基本的非线性系统动力学来描述和理解。从动力学系统理论的视角来看待神经计算尤为有力。因为
- 许多物理和生物过程(例如天气动力学或者动作电位传播)都可以自然地用微分方程或者差分方程形式化。
- 另一方面,动力学系统在计算上是通用的,因为它们可以模仿任何计算机算法的操作(它们是 "图灵完备的")
动力学系统理论动力学系统T为理解大脑中的生化和生理过程提供了一种数学语言,也为理解信息处理和计算提供了一种数学语言。因此,它为解决神经科学中的长期问题提供了一种有前途的方法,通过解释生化和生物物理机制如何引起网络动力学,以及网络动力学如何反过来实现计算和认知操作,将神经系统描述的不同层次联系起来。
尽管 动力学系统T 在解释神经系统生理和计算过程方面的价值早已得到重视,但在过去 5-10 年之前,很难直接从神经时间序列记录中评估 动力学系统 特性。然而,随着大规模并行神经记录技术28-32 和强大的机器学习(ML)和人工智能(AI)算法33-42 的发展,动力学系统T 在神经科学中的应用前景发生了巨大变化。这些进步使研究人员现在能够利用一种称为 动力学系统 重建的方法,直接从神经群体的时间序列记录中推断出 动力学系统 模型,即实验数据的支配方程。
在本视角中,我们将讨论 动力学系统 重构及其彻底改变神经科学的潜力,并重点介绍这一新兴人工智能技术中尚未被神经科学界接受的最新发展和概念。作为 动力学系统 重构工具的递归神经网络(RNN)将是我们关注的重点,但我们也将考察其他最新的 ML-AI 方法。首先,我们将提供有关 动力学系统T 的重要背景信息,这是理解 动力学系统 模型作为理解神经计算的概念框架的优点所必需的,我们还将回顾 动力学系统T 和 RNNs 在神经科学中越来越多的常规应用。接下来,我们将介绍 动力学系统 模型需要满足的一些形式上的要求,以构成对直接来自神经时间序列数据的底层动态的准确表征。然后,我们探讨了实现这些目标的 RNN 训练算法,并讨论了可用于 动力学系统 重建的不同网络架构。接下来,我们将对 动力学系统 重构进行评估和验证,以了解何时以及在哪些条件下 动力学系统 重构被认为是成功的,并允许将 RNN 用作经验观测系统的正式替代物。最后,我们介绍了对经过训练的 RNN 进行的后续分析和生物学解释,该 RNN 重构了感兴趣的 动力学系统,并指出了一些有待解决的难题。
动力学系统理论入门
状态空间
动力学系统理论提供了一种通用的数学语言,可应用于任何跨越时间和空间演变的系统,并可用微分(连续时间)或递归(离散时间)方程组来描述,这些方程组提供了所研究系统的数学表示。动力学系统T 有助于我们解释和理解自然系统的一些一般特性,这些现象在什么条件下发生,以及如何被调节、产生或破坏(如趋于平衡状态、在不同稳定状态之间切换、混沌行为或振荡和同步) 43-45 。动力学系统T 概念通常具有自然的几何和拓扑表征,使其直观易懂43,45,46 。动力学系统T 的核心是状态或相空间的概念,即系统所有动态变量所跨越的空间(图 1)。例如,在一个简单的双变量单神经元模型中,状态空间中的一个点指定了电流电压和折射(超极化)变量的大小(图 1a)。在一个简单的神经群模型中,状态空间中的每个点可能正好对应一对兴奋神经元群和抑制神经元群的瞬时发射率值(图 1b)。
从理论上讲,状态空间必须是完整和唯一的,才能正式构成 动力学系统,即状态空间中的任何一点都包含系统当前状态及其未来演化的所有信息44。对所研究系统进行数学描述("建模")的微分或递归控制方程组给出了系统在状态空间中演化的精确规则。系统时间演化的这些精确动态规则构成了系统流,并由其矢量场(图 1)从几何角度给出,矢量场规定了系统在其状态空间中任何一点的状态移动方向。从任何这样的初始条件出发,系统都将按照其矢量场在状态空间中移动,从而产生特定的轨迹或轨道(图 1)。从几何学角度看,每条轨迹都反映了系统变量(例如不同神经元的尖峰率)的联合时间演化。从形式上看,轨迹对应于给定特定初始条件的微分方程组的唯一时间解44 。状态空间表示法及其矢量场的妙处在于,它能紧凑而完整地描述 动力学系统 的行为。此外,状态空间的拓扑和几何特性将决定系统执行的计算10,13,17。接下来将介绍吸引子、极限循环、混沌和分岔等表征状态空间的最重要的几何和拓扑概念。
吸引子
动力学系统的状态空间充满了支配轨迹命运的几何对象,而吸引子是这类对象中最重要的一类。例如,神经群体模型的矢量场命令轨迹要么向左下方的一个特定点(当初始条件在灰线左边时)收敛,要么向右上方的一个特定点(当初始条件在灰线右边时)收敛(图 1b)。这些点被称为稳定定点(或连续时间系统中的稳定平衡点),其收敛邻域(例如,左下平衡点从灰线向左)就是它们的吸引盆地(关于吸引子和吸引盆地的正式定义,请参阅补充方框 1)。这种点吸引子是所有吸引子对象中最简单的,因为轨迹收敛到的极限集仅由一个点组成。相比之下,系统状态沿一个或多个方向发散的不稳定定点也是存在的,如神经群体模型状态空间的中心点(本例中称为鞍节点)(图 1b)。
神经系统中点吸引子的一个简单例子是单独记录的单个神经元的静息电位:瞬时电流注入对膜电位造成的任何(足够小的)正或负偏转(扰动)都会衰减(收敛)回膜电位的稳定平衡状态。在简单的工作记忆任务中记录到的持续神经活动是一个更复杂的例子,可以用神经发射率的点吸引子来解释 47-50(图 1b)。此外,同一系统可能同时存在多个吸引子状态,每个状态都有自己的吸引盆地(如神经群体模型;图 1b)。这种现象被称为多稳态,在计算神经科学中具有巨大的功能意义。例如,多个吸引子可能会编码工作记忆中处于激活状态的不同感知项目,也可能对应决策任务中的不同选择方案7,51,52。与其说轨迹收敛的极限集由单个点组成,稳定的平衡点还可以形成连续的线、面、环或任何其他类型的流形,这些几何物体被称为线、环、面、环状体或更一般的流形吸引子 46,53-55(图 1c)。例如,线吸引子被假定可提供单一连续值变量的在线表征,如在 "参数 "工作记忆 11 中,在维持任意眼球位置 55 中,在决策过程中提供上下文信息12 中,以及在感知或产生时间间隔5,56 中,而环形、平面或环状吸引子则支持空间导航中的类似功能(如头部方向细胞57 和网格细胞53)。
Limit Cycles and Chaos 极限循环和混沌
吸引点不仅可能是单点,如稳定平衡点,也可能是封闭轨道的形式,称为极限循环吸引点(limit cycle attractors) (图 1a,d)。稳定的极限循环与系统中的非线性振荡相对应:系统状态一旦进入闭合轨道,就会沿着该轨道不断循环,并从某个邻近区域(即吸引盆地)被吸引到该轨道上。极限循环与平衡点一样,也可能是不稳定或半稳定的,这样系统的状态至少会沿着一个方向偏离循环。神经系统中极限循环吸引子的例子比比皆是:在单个神经元中观察到的尖峰模式构成了稳定的极限循环10 ,无论是像规则尖峰神经元(图 1d 右)那样简单的单周期,还是像爆发神经元(图 1d 左)那样复杂的多周期。许多刻板的运动或运动模式,如中枢模式发生器 58,59 产生的模式,也可能与极限周期吸引子相对应。极限周期也被认为是在非人灵长类运动皮层中观察到的旋转动力学的基础 60-62 。
然而,神经系统中的稳定活动模式并不一定是有规律的,就像在极限循环中,系统的状态会周期性地回到其先前的所有位置;它们也可能是极不规则的,就像混沌吸引子(图 1d,中心)。混沌吸引子仍然是吸引子,因为它们对应于状态空间中一个有界的有限区域,该区域周围有一个盆地,附近的轨迹会被吸引过来。但是,混沌吸引子上的轨道从来不会像极限循环那样精确地闭合;它们也不会精确地重复,从而提供了丰富的时间结构,并保留了一定程度的可预测性24。神经活动中的混沌吸引子在单个神经元24 和网络水平63,64 上都有证据,但与点吸引子或极限循环吸引子相比,它们的潜在计算作用还不那么为人所知。
Bifurcations分岔
Bifurcation 分岔是动力学系统理论中的另一个基本概念,它对理解生理学和计算具有巨大的功能影响:分岔表示参数空间中的点(或曲线),在这些点(或曲线)上,随着参数的平滑变化,系统动力学会发生质变(拓扑)(图 1d)。与系统的动态变量不同,参数是系统的一个相对稳定的特征,从动态变量的角度看参数可以被假定为常数(如霍奇金-赫胥黎型生物物理神经元模型中的最大电导或反转电位)。在分岔点,先前稳定的几何对象(如点吸引子或混沌吸引子)可能会突然失去稳定性,新的几何对象可能会出现,或现有对象可能会消失。许多类型的分岔都有一个关键点,那就是当越过临界点时,系统动力学会发生突然变化。例如,当注入单个细胞的电流逐渐增大,而该细胞突然开始尖峰跃动时,就会出现分岔10,14,24。规则学习任务中神经群体表征的突然转变65,66 也被解释为分岔的特征,可能反映了动物切换到不同的行为策略。
如果整个系统的控制方程组能够直接给出,进而得到动态变量集合,就如同上述例子中描述的那样,一个数学模型能够描述整个过程的时候,那么状态空间以及他们的一些几何特征就很容易构建了。从经验上看,当通过一组不完整且有噪声的测量数据来观测 动力学系统时,情况就不那么简单了。这正是我们将在接下来的章节中进一步深入探讨的动力学系统重构主题。不过,我们首先要简要介绍一下动力学系统理论和循环神经网络在神经科学中的应用。
神经科学中的动力系统理论和递归神经网络
Dynamical systems theory and recurrent neural networks in neuroscience
作为理解神经生理学功能和计算的理论框架,动力学系统理论在神经科学领域有着悠久的传统。例如,Rinzel 和 Ermentrout14 以及 Izhikevich10 对单细胞中不同尖峰和爆发行为的动态表征所做的开创性工作,或早期使用动力学系统理论理解神经元群中的大规模网络动力学及其与计算的联系1,2,7,15,16,67-69。然而,这些研究通常使用"手工调整 "生物物理模型描述神经系统 ,而构建这样的模型是一个费力的过程。此外,许多此类模型所提供的生物物理描述,可能并非理解一个系统的计算机制所必需 17,46 (甚至可能因增加不必要的复杂性而妨碍理解)。
Zipser 等人70,71 是最早意识到 RNNs 在深入挖掘神经动力学和计算方面潜力的人之一。RNN 最初是神经元系统的形式抽象,用于模拟时变过程(缺乏生物物理细节)72 ,由一组 "神经 "单元组成,这些单元计算其输入加权和的非线性(激活)函数(反之亦然)。RNN 与卷积神经网络等机器学习中常见的前馈神经网络的不同之处在于,RNN 存在递归连接,允许网络内的活动产生 "回响"。 这一特点也使 RNN 本身成为动力学系统,这对于模仿其他经验观察到的动力学系统非常重要。RNNs 的一个优势是可以使用训练算法对其进行训练,以完成给定任务或逼近一组观察到的数据70,73,74。例如,通过训练 RNN 完成工作记忆任务,Zipser 等人70,71 发现,训练后的 RNN 会形成吸引子状态,向这些状态过渡时产生的单元激活曲线与灵长类动物电生理记录48,49 中发现的激活曲线相似。这种使用任务训练的 RNNs 并将其表现与实验数据进行比较的方法最近经历了一次复兴,主要是由 Sussillo 及其合作者在这一方法框架上开展的极具影响力的工作引发的 12,75 。通过对 RNNs 进行与动物实验中类似的认知或知觉任务训练,可以产生并比较行为表现所依赖的神经计算假设3,12,56,76-85。这使人们对促进多任务学习85-88 和认知灵活性与泛化(cognitive flexibility and generalization)76,79,87 的潜在神经动态和计算机制,以及动态和计算机制如何与连通性和群体结构相关89,90的问题,有了许多独到的见解。尽管动力学系统理论常用于剖析任务训练 的RNN 的动态机制,但在这种方法中,从动物本身获得的神经(或行为)数据并不用作训练数据。根据动物实验中的行为任务训练的 RNN 是推导计算理论的方便而强大的工具,但与生物物理模型一样,仍需要与实验数据进行事后匹配。
RNN 也可以直接在神经生理学数据上进行训练36,38-41,91-93 ,通常在统计(最大似然或贝叶斯)框架内进行35,41,91,94-97 。Yu 等人91 对猕猴前运动皮层神经轨迹的研究是最早的例子之一。大部分使用这种数据推断 RNN 的研究,通过用非线性潜模型(如 RNN 或类似公式,如 "线性动力系统切换 "99,104-106)取代线性潜模型,扩展了早期关于线性或广义线性潜状态空间模型 98-103 的工作--这些模型是推断和可视化低维状态空间中平滑神经轨迹的流行工具。Pandarinath 等人41,95 将 RNN 嵌入深度学习(变分自编码器107 )框架,进一步发展了这种方法。除了在单次试验的基础上根据观察到的神经时间序列推断出最有可能的潜在轨迹 38、41、92 之外,这还能推断出感兴趣的目标区域的未观察到的输入41。数据推断的 RNN 有许多创新和多用途的使用方式,可用于多种目的。例如,它们还可用于量化脑区之间的(非线性)相互作用和信息流,或分析神经变量和行为变量之间的关系40。
这些数据推导 RNN 模型中,有许多被认为是生成模型,因为可以从中采样出与观察到的真实数据具有相似统计特性的新数据,这对许多应用来说已经足够。然而,就其本身而言,这并不意味着数据推导 RNN 也是动力学系统意义上的生成模型,因为经过训练的 RNN 是一个 "可执行 "模型,在模拟时会表现出长期行为,或在直接训练域之外的任何地方表现出与底层生理系统相似的行为(补充图 1)108,109 。动力学系统 意义上的生成性要求更高,因为任何推断模型(RNN 或其他)在单独运行时都需要收敛到相同的吸引子状态,而且至少在局部需要具有与真实系统相同特征的矢量场拓扑34,92,110。虽然神经科学中使用的许多 RNN 可能具有动力学系统意义上的基本生成能力,但通常需要特殊的训练算法、优化标准、网络架构,以及--最重要的--验证测试,才能可靠地确保满足这一更高要求。这就是动力学系统重构的主题(另见补充方框 1),它建立在 ML-AI 的最新方法论进展之上。接下来,我们简要回顾一下基于经典动力学系统理论的经验数据方法,以强调动力学系统重构中需要注意的一些数学问题。
Reconstructing trajectories from time series data
当神经过程的数学模型可用时,动力学系统理论可用来详细分析其动态机制和拓扑特性 10,12,13,16,17,25。但通常情况下,对于大脑这样的复杂系统,一开始并没有一个可靠的数学模型。因此,在只有数据的情况下,人们可能会问:能否直接从实验数据中推断出状态空间和轨迹及其拓扑特性?即使通常只能观察到所有动态相关变量的(极小)子集或细胞外电位等聚集的间接量,能否做到这一点?
直接从时间序列数据重建轨迹的经典方法43,111 是基于时间延迟嵌入的思想112,113 。假设标量时间序列测量值 $x_t$取自动力学系统(例如细胞外电位)。通常情况下,这些测量值是通过记录设备获得的 t 时刻未知 动力学系统 状态 y 的函数 $x_t = h(y(t))$ (h 也称为观测或测量函数)。 引起我们观测结果的未知状态向量 y 可以是生物物理量,如所有神经元的膜电位,也可以是详尽描述底层 动力学系统 的更抽象的量。根据测量结果 xt,我们可以将不同时滞下的测量变量串联起来,形成时滞向量$x_t = (x_t, x_{t-\tau}, x_{t-2\tau}, ...,x_{t-(m-1)\tau})$ ,其中 m 是所谓的嵌入维度,τ 是时滞。根据时间序列形成这些延迟嵌入向量的机制称为延迟坐标映射。
延迟嵌入定理 112、113 中包含的一个重要数学事实是,如果 m 足够大,延迟坐标向量$x_t$空间中的重构轨迹将以 1:1 的方式表示原始轨迹,即保留其所有拓扑特性,得到一个重构的状态空间43、112。这里的拓扑特性指的是所构建的表示仍然允许原始状态空间的某些连续变形。试想一下:即使不知道真实的状态空间及其维度,原则上我们也可以获得其轨迹的可信表示,这种表示保留了真实状态空间的流动方向及其轨迹可能收敛到的吸引子对象,而这一切都可以通过对系统的标量测量探针来实现!为确保这一点,嵌入维度 m 必须足够大,以保证重构状态空间中的轨迹完全分离(不相交),并且得到的矢量场仍然平滑(不会突然转向和跳跃;具有这种特性的映射称为差分同构112 )(附图 2)。
时延嵌入重构背后蕴含着重要的数学启示:在任何经验情况下,我们都无法确定是否涵盖了所有相关的动态变量,即使有数百个神经元的记录也是如此。延迟嵌入定理提供了一个指南,指导我们如何扩展经验评估的空间,以确保重建状态空间中的动态对象在拓扑上与原始状态空间中的动态对象相对应。重要的是,简单的降维工具,如主成分分析(PCA)、等值线图114 或拉普拉斯特征图115 ,通常用来表示 "神经状态空间",并不具备这些特性和理论保证。降维工具甚至会破坏重要的动态特征。例如,PCA 形成的观测值线性组合可能无法区分动力学系统的真实状态空间中的不同状态,也可能破坏其矢量场(PCA 表示对低维空间的线性投影算子,该算子不是 1:1 且不是可逆的,因此违反了差分同构)。
时延坐标映射只能将实验测量所描绘的特定轨迹和吸引对象嵌入状态空间。因此,时延嵌入重构可能对实验数据采样的直接领域之外的 动力学系统 行为或拓扑结构知之甚少,而且它们缺乏一种机制去与动力学系统交互或探究决定其动力学的规则。要全面了解所进行的计算过程,就需要获得动力学系统的计算模型。 但是,与延迟坐标图一样,计算模型也需要遵守一定的拓扑学要求,以忠实再现基本动态(见补充方框 1)。只有这样的模型才有可能研究吸引子和矢量场的详细拓扑和几何结构(图 1)。
这就是 动力学系统 重构的主题,即直接从实验数据中推断系统动态数学模型的过程(图 2)。在下一节中,我们将讨论这种模型应具备的特性、动力学系统重建模型训练中的挑战以及应对这些挑战的不同算法和架构。
动力系统重建
动力系统的普遍近似
几个世纪以来,人类利用自己的想象力和聪明才智,从对物理和生物世界的仔细观察和实验操作中推导出自然规律。但是,科学模型的建立是一个费力、漫长且容易出错的过程。深度学习能否帮助实现这一过程的自动化?是否可以通过算法,仅从数据中推断出一个数学模型,它在每个相关方面的表现都与所观察到的系统如出一辙(图 2)?
为实现这一目标而使用的深度学习技术通常基于通用函数近似方法,它本质上是一组功能强大、表达能力足以任意精度近似任何其他函数的方程组。例如,众所周知,多项式函数之和就具有这种特性116。至少有一个非线性隐藏层的神经网络 (NN) 也属于这类方程 117-119 。因此,基函数库 33、120 或神经网络 121-126 可用来近似任何给定动力学系统的矢量场或轨迹。近似的过程在 ML-AI 中称为训练算法,是一个用于调整近似模型系统参数以减少损失函数(也称为成本或目标函数)的迭代过程,损失函数量化当前模型输出与数据最佳一致输出的偏差。需要强调的是,有许多流行的 ML 模型并不具有普遍的逼近特性。例如,线性动力系统,如线性状态空间模型 100,101,127-129 ,本质上无法产生大多数 动力学系统 现象,包括极限循环、多稳定性或混沌44,45。
还有一点很重要:用于近似的方程的数学形式可能与人类观察者认为的最自然地描述真实动力学系统的方程完全不同。一个例子是 "片状线性递归神经网络"(PLRNN, Piecewise-Linear Recurrent Neural Network)(图 2),它被训练去近似一个生物物理脉冲神经元模型的动力学(图 3a;另见视频)。生物物理脉冲神经元模型由包含指数和多项式项的微分方程组成,而 PLRNN 本身只有片状线性函数(Piecewise-Linear Functions)可供使用。因此,要想完美模拟生物神经元的动态,并不一定需要一个由生物物理方程指定的详细生物模型。这确实是一个了不起的事实--从理论上讲,一组通用的 NN 或基函数可以重现任何未知 动力学系统 的几何和时间特性,而这正是 动力学系统 重构的目标。 至于这种理论上的理想能否在实践中实现,则是另一个问题,它在很大程度上取决于训练算法,其次才是所使用的网络结构。
为动力学系统重建训练 RNN
在动力学系统重构中,我们的目标是生成这样的模型:这些模型一旦在经验数据上经过训练,就会在状态空间中产生具有拓扑(最好还有几何)结构的轨迹,并具有与真实 动力学系统 相对应的长期时间特征。实现这一目标的最常用模型是 RNNs 39、77、110、130-135(图 2)。在过去几十年中,人们提出了各种 RNN 架构,有些是离散时间架构(如时间递归方程)35,136,137,有些是连续时间架构(如常微分方程或偏微分方程系统)83,130,138,139。
这些 RNN 架构中的许多都是为了解决训练中的某些实际问题,其中最突出的是 "梯度爆炸或消失问题 "137,140,141。在简单的统计模型(如线性回归)中,可以一步分析计算出最佳参数解,但对于大多数非线性模型(如 RNN)来说,这已不再可能。对于非线性网络模型,最常用的是数值梯度下降程序,如著名的时间反向传播(BPTT)算法 70、74、142。这些程序通过向下滑动损失函数的梯度来寻求最优解,从而迭代地将参数移向损失的最小值,在该值上,模型输出与观测数据的一致性最佳。
长期以来,限制 RNN 实际应用的一个严重问题是,在较长的训练序列中,这些损失梯度往往会迅速衰减或消失。 这使得 RNNs 难以在涉及时间上相距甚远的事件或演化非常缓慢的过程的时间序列上进行训练(图 1d;例如,在快速尖峰突变中驱动突变的缓慢振荡)143 。长短期记忆(LSTM)网络是第一个解决这一问题的架构,它包含一种受保护的 "工作记忆 "缓冲区,损失梯度在缓冲区内大致保持不变137(图 4a)。门控递归单元(GRUs)简化了 LSTM 结构,成为广泛采用的替代方案 136,144 。最新的架构以耦合或独立振荡器为基础,能够稳定地维持信息而不会出现损失分化 145,146 。最近的另一项研究旨在保留经典 RNN 变体(图 2)的结构简洁性,但通过对参数施加特定约束 147-150 或通过损失函数中的辅助项施加 "软约束",将参数缓缓推向稳定损失梯度的状态143,151,152 。研究此类解决方案的 ML 研究人员通常考虑的是 "经典 "ML 应用,如预测或序列到序列的回归,因此这些架构并不一定使 RNN 更适合 动力学系统 重建(有时更不适合)131 。对于混沌系统,即使在原则上也无法避免梯度爆炸131,153 ,因为它们是这类系统中指数发散轨迹的结果43 。然而,在大多数复杂的生物或物理系统中,混沌动力学是常规而非例外131,154 。
这为动力学系统重构提供了以下重要启示:一方面,在训练过程中,潜在模型(通常是 RNN)需要一定的自由度来 "探索未来";仅根据一步预测误差进行训练(如更 "传统 "的生成模型所隐含的那样)通常会失败109,131,155-157。另一方面,在训练过程中,模型不能长时间不受约束地运行,否则会导致轨迹和损失梯度发散。 因此,动力学系统重构的高效训练程序建立在控制理论方法之上,如 "教师强迫(teacher forcing) "73,108,131,158-160、"同步 (Synchronization)"161-165 或 "多重射击(multiple shooting) "166,167 的现代变体。这些方法旨在通过在策略性选择的时间点 131、166、167 用数据推导的状态替换模型的潜在状态,优化这两种状态的平衡 108,或迫使模型与观察到的信号保持一致("同步")161-164,从而在训练过程中将偏离的轨迹拉回正轨。 通常,保持或拉动偏离的轨迹回到正轨的方法是,随着训练的进行,观察到的系统被捕捉得越来越好,通过教师信号或观察结果放松控制,即所谓的退火程序 39,161 。另一种最新策略是在损失函数中直接加入附加项,以确保满足某些长期(不变)或几何特性(另见 "评估动力系统重构")109,157,168-170。除了这些训练策略的进步之外,专门针对科学 ML 的开源语言(如 Julia)和工具箱(如 DiffEqFlux 171、torchdiffeq 172 或 PySINDy 173)的开发也可能是最近动力学系统重构兴趣激增的原因之一。进一步的推动力来自专门针对 动力学系统 的网络架构设计。下一节概述了用于 动力学系统 重构的主要模型类别,主要是各种形式的 RNN。
动力学系统重建模型的类别
通过控制梯度流和其他算法技巧,可以训练 RNN(如 LSTM 134、166(图 4a)或 PLRNN 39、108、131、143(图 2))来重建甚至复杂的混沌、高维或仅部分观察到的 动力学系统。例如,从数据中仅推断出一个合适的初始条件后,任由 RNN 根据其自身的控制方程自由演化(不受数据限制),就能重现真实 动力学系统 的行为(图 3)。要测试特定 ML 模型或训练算法的重构能力,通常首先要对系统控制方程精确已知的Ground-Truth 基线动力学系统 进行评估(图 3a,b)。不过,动力学系统 重构模型也可以在 fMRI(图 3c)、EEG 信号(图 3d)或多尖峰训练数据(图 3e)等实验数据上成功训练,不过这些实验数据可能会带来额外的问题,如噪声大、非稳态、样本量小以及可能只有一小部分动态相关变量被观测到。
储备池计算机(Reservoir Computers)和回声状态机 (echo state machines) 75,174-176 是另一种在 动力学系统重构132,177,178 中很受欢迎的巧妙的 RNN 设计,最初是作为经典 RNN 的一种高效计算替代方案推出的(图 4b)。它们由大量具有固定(不可训练)网络连接的非线性单元组成。训练的唯一步骤是拟合一个从储备池到线性读出单元层(Linear Readout Units)的线性映射,线性读出单元层再反馈到储备池,从而用所需的输出对网络进行训练(图 4b)。由于可训练的映射是线性的,因此这些系统的学习速度很快(只需一步),而且不会出现梯度爆炸和梯度消失的问题。然而,由于它们依赖于一个固定的大型水库,因此它们是真的能进行 动力学系统 重构,还是只是擅长预测 动力学系统 还不太清楚110。 储备池计算机和回声状态机也相当复杂和高维,因此很难作为底层 动力学系统 的模型进行分析。
因此,连续时间 RNN 通过简单的(单层)前馈 NN 来近似观测动态系统的矢量场,而观测动态系统的矢量场是通过沿观测时间序列提取数值差来估算的,然后将其重塑为由微分方程122,124,126 定义的 RNN。神经常微分方程(神经 ODE138、171、179;相关方法另见83、145、146、180、181)本质上是这一思想的延伸,使用重塑为RNN的深层前馈 NN 近似矢量场(图 4c) 。神经 ODE 是在低维度上重建被观测动力学系统的强大工具,并自然地扩展到空间连续系统(如树突),称为神经偏微分方程或深隐物理模型130,179,181-184。由于神经偏微分方程的连续时间表示法,它可以自然地处理以不规则时间间隔出现的观测结果(如脉冲次数)38 ,因为它不依赖于将时间离散为相等的分段138 。神经 ODE 还能以已知微分方程的形式轻松纳入先验领域知识,如物理信息神经网络130,184。然而,从目前的情况来看,神经 ODE 的训练似乎更为繁琐,因为它们依赖于数值积分技术来求解微分方程和损失梯度。
非线性动态系统的稀疏识别(SINDy)33,34,185(图 4d;相关观点见参考文献 120,186)是一个有别于 RNN 的优雅想法,它使用大量基函数库来近似观测到的 动力学系统,从而提供一定程度的符号可解释性(因为函数库由可直接解释的数学形式组成)。SINDy 依靠 LASSO 回归187 (一种对参数施加稀疏性惩罚的线性回归)从其庞大的函数库中只选择一小部分函数,迫使所有其他回归系数为零。如果基函数库中包含能最自然地描述所研究的动力学系统的正确项,例如,如果动力学系统方程由多项式项组成,而基函数库中也包含正确的多项式项,那么 SINDy 就能实现快速和高精度。但是,如果无法事先建立合适的基函数库,SINDy 通常无法收敛到一个解,例如在许多经验场景中,精确的 动力学系统 方程就是未知的110。
说到这里,许多读者可能会对转换器 188-190 产生疑问,它是 GPT-4 191 等大型语言模型最近取得成功的基础。然而,Transformer在其最初的表述190 中有意去除了连接中的递归性,因此也就去除了时间维度。因此,与上述其他架构不同, Transformer本身不是 动力学系统 模型,只是通过显式的时间相关函数从后门引入时间。虽然Transformer 的输出可以连接回输入,从而使其具有递归性,但Transformer的优势实际上在于处理和预测符号序列,迄今为止,Transformer在 动力学系统 重构中的应用还很有限192,193 。
利用自动编码器增强 RNN 功能。 通常情况下,人们希望找到尽可能低维的动态表示或合适的坐标变换,以促进动力学系统学习和可解释性。这可以通过将 SINDy 或任何 RNN 嵌入自动编码器194 架构34、195、196 来实现(图 4e)。自动编码器由一个深层编码器网络组成,该网络将观察到的数据投射到一个通常低得多的潜在空间中,该空间被配置为具有某些理想属性,并通过另一个深层解码网络重新恢复原始数据。通过使用联合损失函数对这种自动编码器和 动力学系统 重构模型进行联合训练,可以构建出最适合学习底层动态的低维潜在模型34,195,196
概率 RNN 方案。 目前一些最成功的 动力学系统 重构训练方法(如带有变体稀疏教师强迫的 BPTT)108,131 隐含地假定底层潜在模型是确定性的,但通常假定底层动态过程是随机的似乎更为自然,例如明确考虑到大脑中存在的噪声源197。事实上,离散时间 35,36,38-41,92,99,105,155,198 和连续时间 181,199-201 中的 RNN 都有概率假设。将这种随机性纳入潜在模型需要特殊的训练和推理方法,这些方法通常依赖于所谓的状态空间框架和期望最大化算法 35,39,40 或变分推理36,40,92,155 和变分自动编码器技术41,107,202。这些潜模型提供了在潜状态空间(可能还有参数)生成整体概率分布的方法36,38,40,41,92,110,198。概率 动力学系统 重构模型还能以更自然的方式解释各种统计上不同的、同时记录的数据模式 40,155(图 2)。例如,神经科学实验可能有来自许多神经元的泊松型脉冲计数数据,以及啮齿动物在迷宫中的连续 $(x, y)$ 坐标和分类行为选择。通过将 RNN 与不同类型的特定模态解码器模型连接,可以将这些数据整合到同一个潜在 动力学系统 模型中,从而捕捉所观察到的三种独特数据模态的独特统计特性(图 2,左侧部分)。这就在共同潜在空间内的不同数据模式之间建立了直接联系,从而有可能揭示神经轨迹、动力学系统 对象和行为选择过程之间的关系40、
评估动力系统重建
如何评估动力学系统重构是否达到预期效果?在 ML 中,RNN 大多用于对所研究的系统进行超前预测,例如预测用电量203 或预测物体轨迹204 。因此,均方预测误差 (MSPE) 通常用于评估 RNN 训练算法的性能。然而,MSPEs 并不是评估动力学系统重构算法(此处定义为包括训练算法和所选架构)的充分(甚至合适)指标。如果底层动力学系统是混沌的(由于附近轨迹的指数发散),即使观测数据来自具有相同参数的完全相同的底层 动力学系统,微小的噪声或初始条件差异也会很快导致较大的 MSPE39、205。反之亦然,相对较低的 MSPE 可能会错误地表明真实的 动力学系统 与重建的 动力学系统 之间存在良好的一致性,尽管这两个系统在其基本动力学上可能存在巨大差异(补充图 3)。
因此,在 动力学系统重建中,检查所研究动力学系统的几何和其他时间不变特性非常重要。例如,Kullback-Leibler散度39,110、Wasserstein距离178和Hellinger距离206被用来评估在大时间限制下,由真实和重建的动力学系统产生的状态空间不变集上的数据点分布的几何重叠。最大李雅普诺夫指数或所谓的相关维度(对吸引子分形维度的经验估计)是此类不变动力学特征和几何动力学系统特征的另一个例子111,157,196。真实轨迹和重建轨迹的时不变结构的一致性--即在极限情况下不依赖于何时进行测量的时间行为特性--可以通过自协方差函数或功率谱的重叠来评估39,110,131,134,205 。只有当重建的 动力学系统 在这些不变的几何和时间特性上与数据非常吻合时,才能对其进行进一步分析,并将其解释为潜在的系统动力学模型。
分析和解释
相关动力学系统的一个由数据推断的RNN 提供了两个相关层面的可解释性:首先,通过检查模型参数来推断底层动力学系统的生理或解剖特性,例如神经元之间或脑区之间的连接性(图 5)。第二,获得数据生成动态过程的形式替代,为了解底层计算机制提供前所未有的途径: 动力学系统理论工具可用于详细揭示模型的内部运作。 后一层次的可解释性是这项新的 ML-AI 技术真正具有变革性的地方,而前一层次对于具体理解不同的神经元回路组件和过程如何促进计算非常重要。
在动力学系重建过程中,RNN 对生理和解剖的解释存在多种可能(图 5)。通常,潜在的 RNN (RNN构建的潜状态空间 Latent State Space)通过观测(或解码)模型与实际测量的神经或行为时间序列相关联(图 2)。如果将测量数据映射为潜在 RNN 空间的解码器模型采用广义线性模型,那么我们就可以像在传统 207 或高斯过程 129 因子分析中那样直接解释广义线性模型的因子载荷矩阵$B$中的条目(观测值与潜在状态之间的映射权重矩阵)。$B$ 中的条目反映了不同观测值(如记录的神经元和/或行为反应)在相同 RNN 潜在状态(因子)上的联合载荷。例如,在相同潜状态上具有大系数(强负载)的单元集将活跃于相同的细胞集合中(图 5a) 。如果同时从神经元和行为变量等不同数据模态进行测量40,155,$B$还可识别不同模态之间的关系。
一个有趣的选择是限制$B$的结构:我们可以对$B$ 进行约束,只允许 RNN 潜在状态的子集映射到特定的观察结果子集,这样就可以将潜状态子集定义为特定的语义角色(如前额叶神经元或锥体细胞的语义角色) 。例如,给定来自不同脑区或皮质层的记录,可以对$B$进行限制,使 RNN 潜在状态的子集只与一个脑区相连,而 RNN 状态的其他子集则与另一脑区相连(图 5b)。因此,在这个例子中,自然地假定RNN 的连接矩阵 W(连接不同潜状态的权重矩阵)中的条目将解释为区域内和区域间的连接强度(图 5b)。再举个例子,假设记录的单元可以分为不同的类别,如锥体细胞和中间神经元。通过将潜状态子集分配到其中一类或另一类,并强制它们的传出权重为正或负,我们就能从权重矩阵$W$中得到有关兴奋和抑制微电路以及连通图的信息(图 5c)。
当把 RNN 重构模型作为分析动物认知和行为背后神经计算动力学系统实现的概念框架时,它就变得尤为强大。文献中对工作记忆的神经计算实现提出了不同的假设,例如,多稳态性7,52(图 1b)或在没有稳定状态时的缓慢接近分叉动力学208,209。 现在可以通过检查训练后的基于RNN 重构模型的矢量场和吸引子对象来直接检验这些假设(在参考文献 208 中,使用 RNN 的相关方法解决了这一问题)。此外,还可能发现以前未曾想到的动力学机制。
然而,动力学系统实现分析的成功与否取决于 ML-AI 模型的动态可达性和可解释性。如果所使用的 RNN 数学设置本身相当复杂,如 LSTM 或神经常微分方程组,则需要使用近似数值方法来找到感兴趣的动态对象和结构 199,210 。因此,使 RNN 等 ML-AI 模型可在动力学系统意义上进行解释的许多想法都依赖于某种形式的局部线性动力学36,39,40,99,105,110,143,156,211-213,因为线性模型在分析上是可控的、易于理解和分析的。然而,从总体上看,一个合适的动力学系统模型仍然需要是非线性的;否则,就无法产生本文前面动力学系统理论入门中描述的极限循环或混沌等现象。通过发现低维 动力学系统表示可进一步提高可解释性,例如通过提高单个网络单元的表达能力108,110 或与自动编码器联合训练以提取低维动力学系统流形34,214。同样重要的是用于剖析 RNN 结构和动力学并将其与计算和任务表现联系起来的巧妙分析工具,近年来计算神经科学在这方面取得了巨大进展12,56,76,77,79,80,86-90,128,208,215。 因此,在 动力学系统 重构领域,一个特殊的挑战是设计简单、数学上可操作、但又有表现力的模型架构。
Outlook and future challenges
基于模型的 动力学系统 重建领域仍处于起步阶段。迄今为止,人们对训练算法在何种经验和理论条件下能产生拓扑和几何上可信的底层动力学系统重构知之甚少。直到最近40,110,131,178,195,216,许多动力学系统重建的训练算法主要是在相当小(小于四维)的基准系统上进行测试的,没有或只有很少的过程和观测噪声,并假定可以完全访问所有系统变量、大样本量和静态条件。这与神经科学的实际情况形成了鲜明对比。
首先,神经系统的维度极高。 现代记录技术现在通常能同时提供数百(多个单细胞记录)到数千(Ca2+成像或 fMRI)的时间序列观测数据28,29,31,32 。但即便如此,对于生物基质中的所有动态变量(例如,仅啮齿类动物大脑中的数十亿个神经元)来说,仍然只是微不足道的一小部分,更不用说所有的细胞和分子过程了。如何确定所有与动态相关的变量都已被观测到?已经很高维度的观察空间是否需要进一步扩展,例如通过延迟嵌入?有人推测,与行为相关的神经动力学可能局限于更低维度的流形53,82,198,217-221,因此用自动编码器联合训练动力学系统模型以提取这些流形可能会有帮助34,214。然而,这种低维表征并不总能在不同时间、不同任务情境和不同脑区得到保留。例如,在前额叶区域,神经表征似乎稍纵即逝,细胞间的联盟不断变化222-224,这可能与低维结构不符225。
与此相关的是,神经过程本身具有随机性(例如,由于突触失效197 ),而观测过程会产生额外的噪声(如尖峰分类误差)。此外,神经观测技术通常只表征需要后处理的lump signals(“Lump signals” 通常指的是在信号处理中出现的突发性、显著变化或尖峰信号,通常表示事件或异常。例如,细胞外电极),通常提供滤波后的相关变量(Ca2+成像)或生成变量(可能高度非高斯(膜电压)甚至非连续(脉冲计数))。即使在原则上,从这类观测中能检索到多少有关底层动态的详细信息40、155、226、227 也不清楚。与此相关的一个问题是,不同类型的数据预处理(例如,对脉冲序列进行各种滤波操作或核密度平滑处理)会在多大程度上削弱或增强重构真实基本 动力学系统 的能力。
许多 动力学系统 重建算法面临的另一个基本挑战是,神经科学数据通常高度非稳态(包含系统趋势和漂移 222,224,228,229,身体、动机或情绪状态的缓慢变化230 , 或者学习现象65,66,231)。神经系统参数的缓慢漂移往往会产生多种类型的复杂分岔(此处也称为 "临界点")。大脑皮层运行的动态机制并不是恒定的,尽管有多种方法可以处理这种非恒定性(例如,将模型参数本身视为可随时间波动的动态变量232,233)。在 动力学系统 重建中,这种额外的复杂性直到最近才开始受到更多关注178,234-236 。它与 ML 中 "分布外 "235,236 泛化的概念有关(与 "纯粹 "样本外预测相反237 ):如果数据推断的 动力学系统 模型捕捉到了真正的控制方程(在这个意义上是 "正确的"),它就应该能够泛化到训练中看到的数据域(参数机制或吸引盆地)之外(例如,即使只在健康组织上训练,也能预测癫痫活动的过渡238,239 )。有必要对基于 RNN 的动力学系统重构拓扑理论进行更多研究,以明确在哪些条件下可以做到这一点。
撇开非稳态性不谈,神经动力学在不同时空尺度的层次结构中演化 240-242 。以嵌套在较慢振荡中的快速脉冲活动为例(图 1d)。在给定语境下,哪些时间尺度与计算相关?明确设计的将整个过程映射到多时间尺度的动力学系统重建方法可能有所帮助143,243 ,但变量的选择往往只对特定变量具有重要性。例如,在神经系统中存在的许多强非线性因素中,生物物理和突触异质性很容易导致高度混沌的活动 24,63,64,244,这乍一看与工作记忆和决策的简单 点吸引子 描述不相容(但见参考文献 245)。在许多基于 RNN 的分析中,点吸引子往往是聚焦于像脉冲发生率这样的平均量的结果,本质上是平均掉了那些混沌统治的较快时间尺度,然而后者可能也与计算相关。
更一般地说,神经科学中的动力学系统T论述迄今大多集中于非常简单的动力学系统理论对象,如线吸引子12,55或极限循环61。随着时间和空间尺度的不同,以及神经科学对更复杂的行为和自然环境的不断深入,需要使用更复杂的动力学系统理论概念。 如果将 RNNs 和相关模型用于 动力学系统 重建,它们提供的不仅仅是一种强大的 ML-AI 方法:它们在概念上将不同尺度和层次的描述(从细胞集合到行为)整合到神经计算的正式理论中。它们与数据之间密切的定量关系以及它们所提供的分析可达到的程度,有朝一日可能会改变我们对大脑功能的理解,其影响或许可与光遗传学的进步相媲美。
图
图 1:状态空间、矢量场和轨迹。 a, 上半部分,由二维单神经元模型17 的微分方程定义的带矢量场的状态空 间,该模型由电压(V)和折射(R)变量组成,表现出一个极限周期(有规律的尖峰脉冲)。矢量场(箭头;绿色阴影表示状态变化的幅度(越深表示越小),等于矢量的长度)产生了收敛于极限周期的轨迹(天蓝色线),它反映了从初始条件(深蓝色点)开始的 V 和 R 变量的联合时间演化。无效线(红色和黄色)是状态空间中的点集,其中一个特定动态变量的时间导数(变化率)恰好为零(V td /d = 0 和/或 R td /d = 0)。位于两条零线交点的点是一个平衡点,但它是不稳定的,因此其邻近区域的状态会偏离该点,并向稳定的极限循环靠拢。下图是神经元模型模拟活动在状态空间沿极限循环移动时的时间演变。状态空间中的特定位置(黑点)对应于特定时间点(黑虚线)的(V,R)读数。 b, 威尔逊-科文(Wilson-Cowan)型神经群模型 207 的状态空间与向量场。该模型模拟了一个双稳态的 "工作记忆 "系统,状态空间中的每个点精确对应一对兴奋神经元群(Rexc)和抑制神经元群(Rinh)的瞬时发射率值。从初始条件(深蓝色圆点)开始,外部刺激会使系统在两个稳定的点吸引子(状态空间左下方和右上方空折线的交点给出的平衡点)之间来回切换(天蓝色线),灰线划出了它们的吸引盆地(汇聚到其中一个或另一个点吸引子的一组初始条件)。c, 一个二维线性神经常微分方程系统143 ,由于系统的两条零线(z = 01 和 z = 02)精确重合,形成了线性吸引子,从而在状态空间中产生了一条稳定的固定点线。从相同的初始条件(深蓝色圆点)开始,不同的刺激强度会驱动系统走向不同的状态,从这些状态开始,轨迹将向该线上的唯一点收敛,从而编码出驱动刺激的分级记忆。d, 三变量最小生物物理 NMDA 调制猝发神经元模型(V 为电压,n, h 为通道门控变量)中的分岔和混沌 246:模型的状态空间(上半部分)和电压变量的时间图(下半部分),随着 NMDA 输入(gNMDA)水平的三个递增,导致从猝发(左半部分)到混沌(中间)再到规则尖峰(右半部分)的过渡。随着模型中 NMDA 传导参数的变化,这些转变对应于与系统吸引子质变相关的分岔,例如从混沌吸引子(中间)到稳定极限循环(右边)的拓扑变化。在不同水平的环境 NMDA 24 驱动下,体外大鼠前额叶神经元也出现了类似的转变。关于用于生成矢量场的模型方程和参数以及每张图中可视化的模拟数据的详情,请参阅补充方法。
图 2:通过递归神经网络重建动力系统。 在动态系统重构中,递归神经网络(RNN)(中间部分)根据某些(通常是未知的)动力学系统(左侧部分)的时间序列观测数据进行训练。未知动力学系统可以通过具有不同统计特性的多通道数据进行观测,这些数据通道通过不同类型的观测(解码器)模型连接到潜在的 RNN。这些观测模型可以捕捉到给定 RNN 的潜在状态$(z_t)$下,数据($x_t$:$Ca^{2+}$成像轨迹;$c_t$:脉冲计数;$u_t$:行为反应)的条件分布。成功训练后,RNN被期望能生成一个轨迹和时间序列(右侧部分),这个轨迹和时间序列与由训练使用的底层动力学系统(左侧部分)生成的轨迹和时间序列具有相同几何和时间结构。中心框还给出了 RNN 的一般递归方程。这可能是一个 "经典 "RNN:$F_\theta (z_{t-1}, s_t) = \phi(Wz_{t-1}+h+Cs_t)$ ,其中$\phi(·)$通常是一个Sigmoid传递函数,也可能是一个片断线性递归神经网络35,83,153,$F_\theta(z_{t-1}, s_t) = Az_{t-1}+W\phi(z_{t-1})+h+Cs_t$,其中$\phi(·) = max(0, ·)$ 是所谓的整流线性单元激活函数,或任何其他更复杂的 RNN 架构,如长短时记忆网络 137。其中, $A$是一个可训练的自回归矩阵,矩阵 $W$ 包含 RNN 单元间可训练的连接权重,$h$ 是一个偏移(偏置)项,矩阵$C$权衡外部输入$s_t$(如感官刺激)。中心改编自参考文献。40. 这里以著名的洛伦兹系统 247 的混沌吸引子为例说明了重构过程,有关模型方程、参数和 RNN 重构技术的详情,请参阅 "补充方法"。
图 3:递归神经网络对模拟和真实生理数据进行动力系统重建。 对于每个动态系统(动力学系统)重建,递归神经网络(RNN)110 在模拟或生理时间序列数据上训练完成后,从数据推断出的初始条件出发,在时间上自由前向迭代,而无需进一步参考用于训练的时间序列数据(动画见视频)。 a, 在猝发(非混沌)状态下的三变量最小生物物理 NMDA 调制猝发神经元模型 246 的时间图(左侧部分)和状态空间(右侧部分)中的地面实况(真实)和 RNN 生成的轨迹。b, 神经群模型 63(高维混沌系统)的真实系统(上半部分)和 RNN 重构系统(下半部分)产生的时空模式(左侧部分)。由于真实 动力学系统 的混沌性质,真实模式和 RNN 模拟模式开始迅速分化,但重要的是,它们始终保持着相同的时间和几何结构。右图是真实轨迹和重建轨迹的三维状态空间投影(坐标 d1-d3 由 Isomap 获得)。c, 从人体功能磁共振成像数据 39 中叠加真实和 RNN 生成的血氧水平依赖性(BOLD)信号时间序列 s t(左图)、功率谱(中图)和通过延迟嵌入 s t 获得的状态空间表示(右图)。真实功率谱和 RNN 生成的功率谱的一致性可通过海灵格距离(本例中 DH ≈ 0.26,该值可在 0 和 1 之间变化,0 表示完全重叠)进行量化,吸引子几何的一致性可通过库尔贝克-莱布勒发散(本例中 Dstsp ≈ 0.4,不良重建的值通常高于 3)进行量化。 d, 人类脑电图(EEG)数据的 动力学系统 重构248 ,64 个通道的真实和 RNN 生成的 EEG 信号时间序列(左侧部分),以及通过延迟嵌入一个 EEG 时间序列 s t 获得的状态空间表示(右侧部分)。e, 大鼠前扣带回皮层在延迟交替任务期间记录的多单体(MSU)数据249 。左侧部分,用高斯核卷积的尖峰序列(灰点)得出了瞬时发射率的估计值,这样就可以在单次试验期间(无平均值)比较各种单单元实例的真实发射率和 RNN 生成的发射率,以及重要的任务事件(同时作为延迟交替中下一次试验线索的左右杠杆按压,以及两个杠杆同时伸出的反应期)。在不同的任务期间,RNN 生成的 MSU 发射率曲线与真实的 MSU 发射率曲线在各种单一单元行为上的表现非常接近。右图是真实的 MSU 轨迹和 RNN 生成的 MSU 轨迹在 Isomap 所获状态空间低维表示中的投影(真实的状态空间维度更高,因此无法完整显示)。左侧和右侧杠杆按压试验与从共同基础状态产生的不同轨迹相关联。有关用于生成模拟数据和执行基于 RNN 的 动力学系统 重构(以及创建每种可视化效果)的生理时间序列数据、模型方程和参数的详细信息,请参阅补充方法。
图 4 用于动态系统重建的结构。 a, 长短期记忆(LSTM)单元 137 拥有一个门控记忆缓冲器(中间的记忆单元),可保护内容不被 "覆盖"。记忆单元中的线性激活函数实现了既不衰减也不爆炸的稳定维持。交叉圆圈表示输入、输出和记忆(乘法)更新门,由具有非线性(sigmoid 型)激活函数的可训练网络控制。它们的激活状态由线性输出层 "读出",由训练过程中的预期(观察到的)输出驱动。只有导致这些输出的权重是可训练的。c, 神经常微分方程(neural ODEs)138,与许多其他递归神经网络(RNNs)不同,它是在连续的时间和可能的空间中(作为微分方程)制定的。d, 非线性动态系统的稀疏识别(SINDy)33 尝试用一个非常大的基函数库来近似观测系统的矢量场 f(x),这些基函数通过线性组合产生时间导数作为输出。通过最小绝对收缩和选择算子(LASSO)回归的选择过程,可以从函数库中删除所有不需要的项,从而产生最小表示。通过联合训练,自动编码器可从数据中提取出一个低维流形,该流形可最佳地表示所观察到的 动力学系统 34。AE,自动编码器;ReLU,整流线性单元。
标签:状态,RNN,重构,动力学,模型,系统,译文 From: https://www.cnblogs.com/ReidW/p/18249739/use-rnn-to-rebuild-the-computing-system-dynamics-