首页 > 其他分享 >RL 的探索策略 | Exploration for RL

RL 的探索策略 | Exploration for RL

时间:2023-04-06 22:16:24浏览次数:51  
标签:based 探索 action exploration https RL Exploration com


最近在草率地调研 RL 的 exploration。
这篇文章也比较草率,仅能起到辅助作用,不能代替读 review 或更精细的读 paper。


目录


1 主要参考资料

2 RL 的主流 exploration 方法

在 review(第一个参考资料)中,exploration 的研究有两种动机:效率动机 与 安全动机。前者希望 exploration 能帮助 RL 尽快学会,而后者希望 RL 试错学习的过程中 保证安全性。

  • 安全动机的 exploration 的主要方法:
    • 罚函数(给非常大的负 reward);
    • 基于一些先验知识 强行限制(如强行改不安全的 action)。

对于效率动机的 exploration,这是 lilian weng 博客(第二个参考资料)的目录:

image-20230406211259866

我们的重点放在 1 prediction-based,2 memory-based。其他感觉都不是主流方法。

2.1 经典 exploration 方法

  • ε-greedy:随机探索的概率是 ε。
  • Upper Confidence Bound:最大化 \(\hat Q(a)+\hat U(a)\),其中 U 与 action 次数成反比。
  • Boltzmann exploration,Thompson sampling:
  • 添加一个 entropy loss \(H(\pi(a|s))\),鼓励 action diversity。
  • noise-based exploration:在 obs action 甚至 parameter space 里面掺 noise。
  • count-based exploration:用密度模型(或者某些哈希)来近似 state 访问的频率,然后用 \(1/\sqrt{N(s,a)}\) 之类作为 intrinsic reward,N 越小,reward 越大。

2.2 prediction-based method:

学习 env 的 dynamics

  • Intelligent Adaptive Curiosity(IAC):
  • Intrinsic Curiosity Module(ICM):
  • Variational information maximizing exploration(VIME):

不学 env dynamics 了

2.3 memory-based method

  • Episodic Curiosity:
  • Go-Explore:
  • policy-based Go-Explore
  • DTSIL(Diverse Trajectory-conditioned Self-Imitation Learning)

2.4 其他

标签:based,探索,action,exploration,https,RL,Exploration,com
From: https://www.cnblogs.com/moonout/p/17294248.html

相关文章

  • ENGG1310 P3.2 Resistor, Inductor, Capacitor, and RLC Circuits
    这一节里关于三相电的内容最为重要,注意复习Resistor电阻Physical2-terminalenergy-dissipativedevice.电阻定律电阻同样与温度\(T\)有关(然而Temperatureisneglectedforthetimebeing),一般来说温度越高,电阻越大电阻的伏安性质电阻的\(R\)功率损失(PowerL......
  • URI URL的联系与区别
    URIURL的联系与区别  URLURL:(全称:UniformResourceLocator)统一资源定位符。它是一种表示,是互联网上标准资源的地址。 通过URL对互联网上的资源进行访问。URL的常见定义格式为:带方括号[]的为可选项scheme://host[:port#]/path/…/[;url-params][?query-string][#anchor......
  • JSF预热功能在企业前台研发部的实践与探索
    作者:京东零售李孟东00导读企业前台研发部包含了企业业务大部分的对外前台系统,其中京东VOP平台(开放平台)适合于自建内网采购商城平台的企业客户。京东为这类客户专门开发API接口,对接到客户内网的网上商城,将产品SKU直接推送到客户内网,客户内部采购人员可以直接在内网商城进行......
  • 全网最详细中英文ChatGPT-GPT-4示例文档-会议笔记文档智能转摘要从0到1快速入门——官
    目录Introduce简介setting设置Prompt提示Sampleresponse回复样本APIrequest接口请求python接口请求示例node.js接口请求示例curl命令示例json格式示例其它资料下载ChatGPT是目前最先进的AI聊天机器人,它能够理解图片和文字,生成流畅和有趣的回答。如果你想跟上AI时代的潮流......
  • libcurl第五课 Digest Authentication摘要验证使用
    场景在安迅士摄像机网页上,配置系统选项,HTTP/RTSPPasswordSettings中,选择Encryptedonly。获取设备的云台状态信息,使用的是摘要认证例子voidCAnXunShiConn::TestlibCurlHTTPDegistAuth(){CURL*pCurlHandle=curl_easy_init();curl_easy_setopt(pCurlHand......
  • url rewrite功能实现
    背景:abc.com/live/stream.m3u8需要改写成abc.com/live/stream/index.m3u8通过lua实现的逻辑如下修改nginx.conf主配置文件,增加rewrite_by_lua_file,指定改写脚本http{ rewrite_by_lua_filelua/rewrite/rewrite_main.lua;}lua/rewrite/rewrite_main.lua文件编写处......
  • 7·1HTTP协议的瓶颈|7·2双工通信的WebScoket|7·3探索式的实践-SPDY|7·4期盼已久的H
    HTTP协议的瓶颈影响Http网络请求的原因带宽延迟HTTP协议的瓶颈一条连接上只可发送一个请求请求只能从客户端开始。客户端不可以接受除响应意外的指令请求/响应头部不经压缩就发送每次互相发送相同的头部造成的浪......
  • 探索宠物app如何利用人工智能提供更智能的服务
    随着人工智能技术的不断发展,越来越多的宠物app开始利用人工智能技术提供更智能的服务,这些服务不仅能够帮助宠物主人更好地照顾宠物,还能增强宠物主人和宠物之间的互动性。一、智能喂食在宠物喂养方面,智能喂食器是目前比较常见的应用。智能喂食器可以设置不同的喂食时间和食量,还......
  • sizeof 和 strlen 的区别
    sizeof() 是一个运算符,而 strlen() 是一个函数。sizeof() 计算的是变量或类型所占用的内存字节数,而 strlen() 计算的是字符串中字符的个数。sizeof() 可以用于任何类型的数据,而 strlen() 只能用于以空字符‘0’结尾的字符串。 注意:chars[]="hello"prinrf("%......
  • 科技发展的未来:探索数据驱动的智能科技创新
    科技的快速发展,我们的生活也变得越来越依赖科技。从智能手机到智能家居,从人工智能到大数据,科技正在改变着我们的生活方式和工作方式。在这个快速变化的世界中,数据驱动的智能科技创新成为了科技发展的未来方向。一、数据驱动的智能科技创新数据驱动的智能科技创新是指利用大数据......