Selective Experience Replay for Lifelong Learning

时间：2023-07-25 23:55:13浏览次数：34

标签：favoring 样本 experience Selective 2018 Learning DQN Lifelong

发表时间：2018（AAAI 2018）
文章要点：这篇文章想解决强化学习在学多个任务时候的遗忘问题。作者提出了一种对通常的experience replay增广的方式，就是在保持之前的buffer的同时，再维持一个buffer用来存少部分有代表性的experience作为long-term memory。作者研究了四种挑选experience的方式：favoring surprise, favoring reward, matching the global training distribution, and maximizing coverage of the state space.结果表明distribution matching和coverage maximization可以避免catastrophic forgetting。
具体的，作者基于DQN，所以多任务的DQN其实就是采多个任务的experience一起训练

然后这四种选样本的方式都比较直观，其中surprise就是TD error

Reward依据的是reward绝对值的大小。Global Distribution Matching就是从所有的样本里面做down sample。Coverage Maximization搞了一个聚类的方式，每次用新的样本替换掉距离最近的样本。结果上看可以缓解catastrophic forgetting。
总结：无。
疑问：普通的强化会不会有遗忘的问题，比如学到后面忘了前面？（应该会吧，但是每次reset又会采到前面的样本，估计就还好。）

标签：favoring,样本,experience,Selective,2018,Learning,DQN,Lifelong
From： https://www.cnblogs.com/initial-h/p/17581335.html

pytorch-metric-learning官方文档
如何实现pytorch-metric-learning官方文档简介pytorch-metric-learning是一个用于度量学习的开源软件库，它提供了丰富的度量学习算法和损失函数。本文将指导您如何实现pytorch-metric-learning官方文档，让您能够快速上手并了解其使用方法。整体流程下面是实现pytorch-metric-lear......
Prompt Learning: ChatGPT 也在用的 NLP 新范式
编者按：自GPT-3以来，大语言模型进入了新的训练范式，即“预训练模型+Promplearning”。在这一新的范式下，大语言模型呈现出惊人的zero-shot和few-shot能力，使用较少的训练数据来适应新的任务形式。最近火爆出圈的ChatGPT是利用这一方式。简单理解Promptlearning，其核心就是以特定的模板，......
Meta Learning（元学习）
MetaLearning（元学习）元学习：学习如何学习：也是找一个函数，这个函数是学习算法，输出训练好的模型假如教机器做了训练影像分类、影像识别等任务的模型，再去教机器训练语音识别的模型时，他可能学的更好，虽然语音和影像没有什么关系，但机器在多次的学习训练其他模型过程中，可能学到了如何去......
概述增强式学习（Reinforcement Learning）
概述增强式学习（ReinforcementLearning）SupervisedLearning（自监督学习）：告诉机器输入和输出，用有标注的训练资料训练出的NetworkReinforcementLearning（增强式学习）：给机器一个输入，我们不知道最佳输出是什么（适用于标注困难或者人也不知道答案是什么）（机器需要知道什么是好，什么是......
machine learning-2023-07-19
questions【链接】││──math││──线性回归││──逻辑回归│└──梯度下降││──python││──numpy（科学计算库）││──pandas（数据分析处理库）││──matplotlib（数据可视化库）│└──scikit-learn（机器学习库）││──模式识别......
Learning hard C#学习笔记——读书笔记 07
1.值类型和引用类型1.1什么是值类型和引用类型值类型：包括简单类型，枚举类型，结构体类型等，值类型通常被分配在线程的堆栈上，变量保存的内容就是实例数据本身引用类型：引用类型实例则被分配在托管堆上，变量保存的是实例数据的内存地址，引用类型主要包括类类型、接口类型、委托类型......
大语言模型的预训练4：指示学习Instruction Learning详解以及和Prompt Learning,In-cont
大语言模型的预训练[4]：指示学习InstructionLearning：Entailment-oriented、PLMoriented、human-oriented详解以及和PromptLearning,In-contentLearning区别1.指示学习的定义InstructionLearning让模型对题目/描述式的指令进行学习。针对每个任务，单独生成指示，通过在若干个......
大语言模型的预训练[5]：语境学习、上下文学习In-Context Learning：精调LLM、Prompt设计
大语言模型的预训练[5]：语境学习、上下文学习In-ContextLearning：精调LLM、Prompt设计和打分函数（ScoringFunction）设计以及ICL底层机制等原理详解1.In-ContextLearning背景与定义背景大规模预训练语言模型（LLM）如GPT-3是在大规模的互联网文本数据上训练，以给定的前缀来预测生......
大语言模型的预训练[3]之Prompt Learning：Prompt Engineering、Answer engineering、Mu
大语言模型的预训练[3]之PromptLearning：PromptEngineering、Answerengineering、Multi-promptlearning、Trainingstrategy详解1.PromptLearning1.1PromptLearning的出现背景目前学术界一般将NLP任务的发展分为四个阶段，即NLP四范式：：第一范式：传统机器学习模型的范......
大语言模型的预训练[3]之Prompt Learning：Prompt Engineering、Answer engineering、Mu
大语言模型的预训练[3]之PromptLearning：PromptEngineering、Answerengineering、Multi-promptlearning、Trainingstrategy详解1.PromptLearning1.1PromptLearning的出现背景目前学术界一般将NLP任务的发展分为四个阶段，即NLP四范式：：第一范式：传统机器学习模型的范......

Selective Experience Replay for Lifelong Learning

相关文章

赞助商

阅读排行