Learning model-based planning from scratch

时间：2023-03-27 23:33:37浏览次数：41

标签：based scratch planning 要么 imagine model

发表时间：2017
文章要点：这篇文章想说，之前的文章去做planning的时候，都会去设计一个planning的方法。这篇文章提出了一个端到端的方法，Imagination-based Planner，不去设计planning的方式，做到全部的端对端训练，agent会决定什么时候去planning（imagine），什么时候去真实环境里面做动作（act）。模型主要包括这几个模块：manager用来决定是imagine还是act，controller用来执行动作，imagination是一个model用来预测状态转移，memory就相当于buffer。然后planning的时候就相当于policy rollout，只是rollout的结构有区别，“1-step”,“n-step”,and“tree”。要么一个状态planning多次，要么planning一条长轨迹，要么二者的折中

训练的目标函数就是最大化外部reward，以及最小化planning的计算量。训练方式就是REINFORCE和stochastic value gradients (SVG)，然后就没了。
总结：感觉很不靠谱啊。。。
疑问：无。

标签：based,scratch,planning,要么,imagine,model
From： https://www.cnblogs.com/initial-h/p/17263461.html

juddiv3 tmodel的代码
环境：juddiv3+tomcat6.0+MySQL5.1+MyEclipse7.5WSDL在UDDI中的注册：我们有两种方法和UDDI进行通信：一、用soapui工具直接编写SOAP消息和UDDI进行......
Difformer: Empowering Diffusion Models on the Embedding Space for Text Generatio
目录概符号说明主要内容GaoZ.,GuoJ.,TanX.,ZhuY.,ZhangF.,BianJ.andXuL.Difformer:Empoweringdiffusionmodelsontheembeddingspacefortextgene......
spring-web中的annotation注解之十：@ModelAttribute
spring-web中的annotation注解之十：@ModelAttribute1、@ModelAttribute注解在方法上：*该方法在Controller每个方法执行前会被调用，没有返回值的@ModelAttribute方法使用mo......
【THM】OSI Model(OSI模型介绍)-学习
本文相关的TryHackMe实验房间链接：https://tryhackme.com/room/osimodelzi本文相关内容：了解决定跨网络处理数据的各个阶段的基本网络框架。什么是OSI模型？OSI模型(开放系......
Django笔记八之model中Meta参数的使用
前面介绍了model的字段属性，字段类型，这篇笔记介绍一下model的Meta选项。这个选项提供了一些参数，比如排序（ordering），表名（db_table）等。但这都不是必需的，都是作为可选项，......
[tensorflow]plot_model
[ImportError:Failedtoimportpydot.Youmustinstallpydotandgraphvizforpydotprinttowork]python使用tensorflow库时报错importtensorflowtensorflow.ker......
v-model 的使用
1.v-model的基本使用1.1v-model是一个语法糖<template><input:value="text"@input="event=>text=event.target.value"/><inputv-model="text"/><!--......
[FastAPI-22]响应模型-response_model
importtypingfromfastapiimportFastAPI,Responsefromfastapi.responsesimportJSONResponsefrompydanticimportBaseModelapp=FastAPI()'''响应模型s......
Modelsim SE 下载安装、注册详细教程
声明：原博客为https://blog.csdn.net/ssj925319/article/details/115353790此文仅为记录安装过程，方便日后查看一、ModelsimSE下载及安装百度网盘下载链接：https://pan......
iview Input 必填不能未空不能输入空格 v-model.trim required: true
iviewInput必填不能未空不能输入空格v-model.trimrequired:true需求测试在验证必填的时候，会输入一个空格，本着空格不算内容的原则，会提一个bug解决方案v-model.trim数......

Learning model-based planning from scratch

相关文章

赞助商

阅读排行