首页 > 其他分享 >元学习:元学习的始祖论文——《On the Optimization of a Synaptic Learning Rule》

元学习:元学习的始祖论文——《On the Optimization of a Synaptic Learning Rule》

时间:2023-11-15 14:06:26浏览次数:34  
标签:task 训练 任务 Rule 学习 神经网络 Optimization 参数 Learning

元学习:元学习的始祖论文——《On the Optimization of a Synaptic Learning Rule》_泛化

 

 

 

=============================================

 

 

 

 

这个论文保持着上世纪人工智能论文的特点,与其说是计算机类论文更不如说是偏生物科学方面的论文,这也可能是因为当时的人工智能的研究更加偏向于生物启发,

有些像Biology-Inspired Engineering。

 

 

这个论文是最古老的使用并结合计算机方法来进行研究的“元学习”算法之一的论文,可以说是元学习论文的始祖。 

 

 

关于“元学习”一直没有太确定的定义,不过一般认为经过对多个学习任务的学习来提高对新任务的学习能力的方式叫做元学习;这其中也就包括了通过对其他任务的学习来提高对新任务的学习速度,也就是说通过对多个学习任务的学习提高算法对新任务的学习速度,这一点比较典型的场景就是小样本学习,这里只需要较少的新任务的样本进行1次或3、5次的学习就可以得到一个不错的性能表现,这里的主要特点就是对新任务的学习速度快;还有一种定义就是通过对多个任务的学习然后提高对新任务的学习能力的泛化性,这种的定义或者说是框架或者说是表现形式更注重对新任务的最终学习性能的表现。可以说上面两种对元学习的定义是极为相似的,区别就是对新任务的性能提升是体现上快速学习上还是最终的新任务的学习泛化性上,本blog介绍的这篇论文就是后者,对新任务的性能提升体现在新任务的最终学习泛化性上。

 

需要说明的是,由于该论文时间久远,很多论文细节已经不可考证,并且其中很多技术都已经被淘汰/不再被常用,不过这些并不重要,重要的是这篇论文所体现的元学习的思想。

 

=============================================

 

 

 

摘要:

元学习:元学习的始祖论文——《On the Optimization of a Synaptic Learning Rule》_泛化_02

 

 

 

 

 

内容:

当时的神经网络训练很多都是采用Hebb规则进行训练,这也是MLP神经网络最原始的训练方法,当时的学术研究中类似的训练规则还有很多,其中也有当今最为常用的backward propogation,这个知识背景是preliminary。

 

元学习:元学习的始祖论文——《On the Optimization of a Synaptic Learning Rule》_神经网络_03

 

 

本文的一个想法就是现有的神经网络训练都是使用单一的训练规则,如Hebb规则,作者认为不同的学习任务应该有不同的训练规则,这种不同学习任务所具备的对应的学习规则应该可以用参数进行表示,这里使用θ参数,而该学习任务的神经网络使用参数x来进行表示,也就是说对新任务的训练不仅需要对其神经网络参数进行训练并且还要对其训练规则的参数进行训练。

 



biologically plausible synaptic mechanisms

元学习:元学习的始祖论文——《On the Optimization of a Synaptic Learning Rule》_泛化_04

 

 

元学习:元学习的始祖论文——《On the Optimization of a Synaptic Learning Rule》_神经网络_05

 

 

元学习:元学习的始祖论文——《On the Optimization of a Synaptic Learning Rule》_泛化_06

 

 

 

元学习:元学习的始祖论文——《On the Optimization of a Synaptic Learning Rule》_泛化_07

 

 

元学习:元学习的始祖论文——《On the Optimization of a Synaptic Learning Rule》_迭代_08

 

 

 

 

 

元学习:元学习的始祖论文——《On the Optimization of a Synaptic Learning Rule》_神经网络_09

 

 

元学习:元学习的始祖论文——《On the Optimization of a Synaptic Learning Rule》_迭代_10

 

 

 

元学习:元学习的始祖论文——《On the Optimization of a Synaptic Learning Rule》_迭代_11

 

元学习:元学习的始祖论文——《On the Optimization of a Synaptic Learning Rule》_泛化_12

 

 

元学习:元学习的始祖论文——《On the Optimization of a Synaptic Learning Rule》_神经网络_13

 

 

 

 

 

元学习:元学习的始祖论文——《On the Optimization of a Synaptic Learning Rule》_神经网络_14

 

元学习:元学习的始祖论文——《On the Optimization of a Synaptic Learning Rule》_神经网络_15

 

 

 

元学习:元学习的始祖论文——《On the Optimization of a Synaptic Learning Rule》_泛化_16

 

 

 

 =============================================

 

 

元学习:元学习的始祖论文——《On the Optimization of a Synaptic Learning Rule》_神经网络_17

 

 

 

元学习:元学习的始祖论文——《On the Optimization of a Synaptic Learning Rule》_神经网络_18

 

 

 

元学习:元学习的始祖论文——《On the Optimization of a Synaptic Learning Rule》_泛化_19

 

 

 

元学习:元学习的始祖论文——《On the Optimization of a Synaptic Learning Rule》_神经网络_20

 

元学习:元学习的始祖论文——《On the Optimization of a Synaptic Learning Rule》_神经网络_21

 

 

元学习:元学习的始祖论文——《On the Optimization of a Synaptic Learning Rule》_泛化_22

 

 

=============================================

 

 

 

元学习中每个学习的样本instance并不是一对输入和标签,而是一个学习任务task;直白的说,元学习就是要学习一套参数,这套参数通过对多个任务的学习过程中获得,然后把这套得到的参数放到新的任务上进行重新学习,然后使新的任务的学习性能得到提升。

 

元学习最直观的形式就是用一个比较大的task数来进行学习,比如用1000000个task,每次从中取32个task来进行minibatch训练,而模型结构采用标准的单任务情况下的形式即可,这样只要训练的task足够多,比如甚至远大于这里的1000000个tasks,那么这样训练出来的模型自然可以在新的任务上获得很好的性能表现,这也是该论文中所提及的,但是现实问题是在实际情况中我们往往没有这样足够多的相似任务来进行训练,在该篇论文的最后实验过程中往往也都只是使用了5个task,不过要注意,随着发展在现在的deep learning中我们可以轻松构建成千上万个相似任务。

本篇论文中算法的实际流程是按照训练轮circle来进行的,这里也可以看做是一次迭代;这里假设使用5个任务tasks来进行元学习的训练,这里每次迭代开始时都采用5个相同结构的神经网络,每个task对应一个神经网络,在每次迭代开始时对这5个神经网络的参数进行随机初始化,然后每个task都单独进行训练,这里的训练规则使用的是多个Hebb类似的规则并使用θ参数进行线性组合后的更新规则,这样每个task单独进行一点次数的训练后其参数时关于θ参数的形式,这时候我们可以再对θ参数进行训练,同理,其他task也是如此的进行单独学习,先对自身神经网络参数进行训练,得到关于θ参数的神经网络参数,然后再对θ参数进行训练;最后在更新θ参数时使用这5个神经网络的θ参数更新均值。这里需要注意,在每次迭代的开始时都需要对5个task所对应的神经网络参数进行随机初始化,可以说在该文所提元学习的训练过程中5个task对应的5个神经网络的参数并不是所要计算的最终形式,这些神经网络参数只是临时使用的间接值,其目的就是为了训练更新规则中θ参数的。

通过该文所提方法训练出的θ参数可以很好的应用在新task上,在新task上这些θ参数可以作为初始值,采用元学习训练过程中的形式进行微调,即每次迭代时先使用θ参数的更新规则来更新新task的神经网络参数,然后根据更新后的关于θ参数的神经网络参数来对θ参数进行训练,采用该种方式进行对新task的训练时是不在首次迭代后对新task的神经网络参数进行初始化的。

该篇论文所提方法的一个假设就是对于不同的task应该有特定的更新规则,这样才对性能有利,从而通过对多个task的训练获得到一个θ参数的更新规则,将这个元学习训练得到的θ参数更新规则放到新的task上后可以使新task得到更好的性能表现:训练速度更快、最终泛化性能表现更优。

 

可以说,这篇始祖元学习论文所构建的scheme和现在的深度元学习也是相似的,并且该论文所体现的思想更贴近“元思想”,即通过对多个任务的学习获得到知识,从而对新任务有更好的性能表现。

 

 

 

=============================================

 

 

标签:task,训练,任务,Rule,学习,神经网络,Optimization,参数,Learning
From: https://blog.51cto.com/u_15642578/8390010

相关文章

  • ERROR: Failed to Setup IP tables: Unable to enable SKIP DNAT rule
    1、错误场景和现象Linux开启或重启防火墙后,使用默认驱动程序创建网络“docker-compose_default”报错如下:Creatingnetwork"docker-compose_default"withthedefaultdriverERROR:FailedtoSetupIPtables:UnabletoenableSKIPDNATrule:(iptablesfailed:iptab......
  • docker异常unable to add return rule in DOCKER-ISOLATION-STAGE-1 chain
    docker重装启动异常 INFO[2021-03-09T15:06:20.839195000+08:00]Loadingcontainers:start.INFO[2021-03-09T15:06:20.885624800+08:00]stoppingeventstreamfollowinggracefulshutdownerror="<nil>"module=libcontainerdnamespace=mobyINFO[2021-......
  • Reinforcement Learning Chapter 1
    本文参考《ReinforcementLearning:AnIntroduction(2ndEdition)》Sutton.强化学习是什么传统机器学习方法可分为有监督与无监督两类;有监督学习----->任务驱动无监督学习----->数据驱动强化学习则可看作机器学习的“第三范式”----->模拟驱动,具体而言:通过agent与environm......
  • RLHF · PBRL | 发现部分 D4RL tasks 不适合做 offline reward learning 的 benchmark
    论文题目:BenchmarksandAlgorithmsforOfflinePreference-BasedRewardLearning,TMLR20230103发表。openreview:https://openreview.net/forum?id=TGuXXlbKsnpdf版本:https://arxiv.org/pdf/2301.01392.pdfhtml版本:https://ar5iv.labs.arxiv.org/html/2301.01392目......
  • TRL(Transformer Reinforcement Learning) PPO Trainer 学习笔记
    (1) PPOTrainerTRL支持PPOTrainer通过RL训练语言模型上的任何奖励信号。奖励信号可以来自手工制作的规则、指标或使用奖励模型的偏好数据。要获得完整的示例,请查看examples/notebooks/gpt2-sentiment.ipynb。Trainer很大程度上受到了原始OpenAIlearningtosummarizewo......
  • A Learning Method for Feature Correspondence with Outliers读书笔记
    ALearningMethodforFeatureCorrespondence withOutliers------2022年论文地址:ALearningMethodforFeatureCorrespondencewithOutliers|IEEEConferencePublication|IEEEXplore背景:SuperGlue在许多现实任务中取得了优异的性能,但在处理离群特征方面仍然存在问......
  • 论文阅读:Active Learning for Point Cloud Semantic Segmentation via Spatial-Struct
    ActiveLearningforPointCloudSemanticSegmentation viaSpatial-StructuralDiversityReasoning通过空间结构多样性推理进行点云语义分割的主动学习摘要众所周知,昂贵的注释成本是点云语义分割技术发展的一个主要制约因素。在本文中,我们提出了一种新的基于主动学习的方法来......
  • SuperGlue: Learning Feature Matching with Graph Neural Networks论文笔记
    SuperGlue:LearningFeatureMatchingwithGraphNeuralNetworks源码:github.com/magicleap/SuperGluePretrainedNetwork背景:主要解决图像中点之间的对应关系。主要方法:上图为该方法的主要框架。模型大致分为两个部分:注意图神经网络和最优匹配层。其中第i个局部特征由di......
  • 论文阅读:Efficient 3D Point Cloud Feature Learning for Large-Scale Place Recognit
    Efficient3DPointCloudFeatureLearningfor Large-ScalePlaceRecognition用于大规模场所识别的高效三维点云特征学习摘要由于变化环境中场景的外观和照度的急剧变化,基于点云的地点识别检索仍然是一个具有挑战性的问题。现有的基于深度学习的全局描述符的检索任务通常会消耗......
  • [论文阅读] EMO@ Earth Mover Distance Optimization for Auto-Regressive Language M
    Pretitle:EMO:EarthMoverDistanceOptimizationforAuto-RegressiveLanguageModelingaccepted:arXiv2023paper:https://arxiv.org/abs/2310.04691code:https://github.com/DRSY/EMOref:https://spaces.ac.cn/archives/9797关键词:language-modeling,optimalt......