首页 > 其他分享 >Selective Experience Replay for Lifelong Learning

Selective Experience Replay for Lifelong Learning

时间:2023-07-25 23:55:13浏览次数:34  
标签:favoring 样本 experience Selective 2018 Learning DQN Lifelong


发表时间:2018(AAAI 2018)
文章要点:这篇文章想解决强化学习在学多个任务时候的遗忘问题。作者提出了一种对通常的experience replay增广的方式,就是在保持之前的buffer的同时,再维持一个buffer用来存少部分有代表性的experience作为long-term memory。作者研究了四种挑选experience的方式:favoring surprise, favoring reward, matching the global training distribution, and maximizing coverage of the state space.结果表明distribution matching和coverage maximization可以避免catastrophic forgetting。
具体的,作者基于DQN,所以多任务的DQN其实就是采多个任务的experience一起训练

然后这四种选样本的方式都比较直观,其中surprise就是TD error

Reward依据的是reward绝对值的大小。Global Distribution Matching就是从所有的样本里面做down sample。Coverage Maximization搞了一个聚类的方式,每次用新的样本替换掉距离最近的样本。结果上看可以缓解catastrophic forgetting。
总结:无。
疑问:普通的强化会不会有遗忘的问题,比如学到后面忘了前面?(应该会吧,但是每次reset又会采到前面的样本,估计就还好。)

标签:favoring,样本,experience,Selective,2018,Learning,DQN,Lifelong
From: https://www.cnblogs.com/initial-h/p/17581335.html

相关文章

  • pytorch-metric-learning官方文档
    如何实现pytorch-metric-learning官方文档简介pytorch-metric-learning是一个用于度量学习的开源软件库,它提供了丰富的度量学习算法和损失函数。本文将指导您如何实现pytorch-metric-learning官方文档,让您能够快速上手并了解其使用方法。整体流程下面是实现pytorch-metric-lear......
  • Prompt Learning: ChatGPT 也在用的 NLP 新范式
    编者按:自GPT-3以来,大语言模型进入了新的训练范式,即“预训练模型+Promplearning”。在这一新的范式下,大语言模型呈现出惊人的zero-shot和few-shot能力,使用较少的训练数据来适应新的任务形式。最近火爆出圈的ChatGPT是利用这一方式。简单理解Promptlearning,其核心就是以特定的模板,......
  • Meta Learning(元学习)
    MetaLearning(元学习)元学习:学习如何学习:也是找一个函数,这个函数是学习算法,输出训练好的模型假如教机器做了训练影像分类、影像识别等任务的模型,再去教机器训练语音识别的模型时,他可能学的更好,虽然语音和影像没有什么关系,但机器在多次的学习训练其他模型过程中,可能学到了如何去......
  • 概述增强式学习(Reinforcement Learning)
    概述增强式学习(ReinforcementLearning)SupervisedLearning(自监督学习):告诉机器输入和输出,用有标注的训练资料训练出的NetworkReinforcementLearning(增强式学习):给机器一个输入,我们不知道最佳输出是什么(适用于标注困难或者人也不知道答案是什么)(机器需要知道什么是好,什么是......
  • machine learning-2023-07-19
    questions【链接】││──math││──线性回归││──逻辑回归│└──梯度下降││──python││──numpy(科学计算库)││──pandas(数据分析处理库)││──matplotlib(数据可视化库)│└──scikit-learn(机器学习库)││──模式识别......
  • Learning hard C#学习笔记——读书笔记 07
    1.值类型和引用类型1.1什么是值类型和引用类型值类型:包括简单类型,枚举类型,结构体类型等,值类型通常被分配在线程的堆栈上,变量保存的内容就是实例数据本身引用类型:引用类型实例则被分配在托管堆上,变量保存的是实例数据的内存地址,引用类型主要包括类类型、接口类型、委托类型......
  • 大语言模型的预训练4:指示学习Instruction Learning详解以及和Prompt Learning,In-cont
    大语言模型的预训练[4]:指示学习InstructionLearning:Entailment-oriented、PLMoriented、human-oriented详解以及和PromptLearning,In-contentLearning区别1.指示学习的定义InstructionLearning让模型对题目/描述式的指令进行学习。针对每个任务,单独生成指示,通过在若干个......
  • 大语言模型的预训练[5]:语境学习、上下文学习In-Context Learning:精调LLM、Prompt设计
    大语言模型的预训练[5]:语境学习、上下文学习In-ContextLearning:精调LLM、Prompt设计和打分函数(ScoringFunction)设计以及ICL底层机制等原理详解1.In-ContextLearning背景与定义背景大规模预训练语言模型(LLM)如GPT-3是在大规模的互联网文本数据上训练,以给定的前缀来预测生......
  • 大语言模型的预训练[3]之Prompt Learning:Prompt Engineering、Answer engineering、Mu
    大语言模型的预训练[3]之PromptLearning:PromptEngineering、Answerengineering、Multi-promptlearning、Trainingstrategy详解1.PromptLearning1.1PromptLearning的出现背景目前学术界一般将NLP任务的发展分为四个阶段,即NLP四范式::第一范式:传统机器学习模型的范......
  • 大语言模型的预训练[3]之Prompt Learning:Prompt Engineering、Answer engineering、Mu
    大语言模型的预训练[3]之PromptLearning:PromptEngineering、Answerengineering、Multi-promptlearning、Trainingstrategy详解1.PromptLearning1.1PromptLearning的出现背景目前学术界一般将NLP任务的发展分为四个阶段,即NLP四范式::第一范式:传统机器学习模型的范......