RL 的探索策略 | Exploration for RL

时间：2023-04-06 22:16:24浏览次数：56

标签：based 探索 action exploration https RL Exploration com

最近在草率地调研 RL 的 exploration。
这篇文章也比较草率，仅能起到辅助作用，不能代替读 review 或更精细的读 paper。

1 主要参考资料
2 RL 的主流 exploration 方法

1 主要参考资料

https://www.sciencedirect.com/science/article/pii/S1566253522000288
- 一篇 review，感觉不太好读。
https://lilianweng.github.io/posts/2020-06-07-exploration-drl/
- 很好的博客，主要参考它。
https://journals.sagepub.com/doi/10.1177/1729881418775849
- 18 年的 review，关于 memory-based exploration，还没读。
一些可爱的 new bing。

2 RL 的主流 exploration 方法

在 review（第一个参考资料）中，exploration 的研究有两种动机：效率动机与安全动机。前者希望 exploration 能帮助 RL 尽快学会，而后者希望 RL 试错学习的过程中保证安全性。

安全动机的 exploration 的主要方法：
- 罚函数（给非常大的负 reward）；
- 基于一些先验知识强行限制（如强行改不安全的 action）。

对于效率动机的 exploration，这是 lilian weng 博客（第二个参考资料）的目录：

我们的重点放在 1 prediction-based，2 memory-based。其他感觉都不是主流方法。

2.1 经典 exploration 方法

ε-greedy：随机探索的概率是 ε。
Upper Confidence Bound：最大化 \(\hat Q(a)+\hat U(a)\)，其中 U 与 action 次数成反比。
Boltzmann exploration，Thompson sampling：
- bing：玻尔兹曼探索是不确定性下 sequential decision 的经典策略，是强化学习（RL）中最标准的工具之一。它从玻尔兹曼分布（softmax）中获取的 Q value 上的 action，由温度参数 τ 调节.
  
  汤普森采样以威廉·R·汤普森（William R. Thompson）的名字命名，是一种启发式方法，用于选择解决 multi-armed bandit problem 中 exploration-exploitation 困境的 action。它包括选择最大化随机抽取信念（randomly drawn belief）的预期 reward 的 action.
添加一个 entropy loss \(H(\pi(a|s))\)，鼓励 action diversity。
noise-based exploration：在 obs action 甚至 parameter space 里面掺 noise。
count-based exploration：用密度模型（或者某些哈希）来近似 state 访问的频率，然后用 \(1/\sqrt{N(s,a)}\) 之类作为 intrinsic reward，N 越小，reward 越大。

2.2 prediction-based method：

学习 env 的 dynamics

Intelligent Adaptive Curiosity（IAC）：
Intrinsic Curiosity Module（ICM）：
Variational information maximizing exploration（VIME）：

不学 env dynamics 了

Directed Outreaching Reinforcement Action-Selection（DORA）：
- https://zhuanlan.zhihu.com/p/78709539
Random Network Distillation（RND）：
- https://blog.csdn.net/qq_43703185/article/details/122718999
Never Give Up（NGU）：
- https://zhuanlan.zhihu.com/p/551992517
- agent57

2.3 memory-based method

Episodic Curiosity：
Go-Explore：
policy-based Go-Explore
DTSIL（Diverse Trajectory-conditioned Self-Imitation Learning）

2.4 其他

Q exploration，Q 值近似，Bootstrapped DQN：
- https://www.cnblogs.com/initial-h/p/16350230.html
- https://zhuanlan.zhihu.com/p/192484077
Variational Options
- Variational Intrinsic Control：训一堆能在不同 state 下终止的 policy，然后看哪个最好？？
- Variational Auto-encoding Learning of Options by Reinforcement（VALOR）：没看。

标签：based,探索,action,exploration,https,RL,Exploration,com
From： https://www.cnblogs.com/moonout/p/17294248.html

ENGG1310 P3.2 Resistor, Inductor, Capacitor, and RLC Circuits
这一节里关于三相电的内容最为重要，注意复习Resistor电阻Physical2-terminalenergy-dissipativedevice.电阻定律电阻同样与温度\(T\)有关(然而Temperatureisneglectedforthetimebeing)，一般来说温度越高，电阻越大电阻的伏安性质电阻的\(R\)功率损失(PowerL......
URI URL的联系与区别
URIURL的联系与区别 URLURL：（全称：UniformResourceLocator）统一资源定位符。它是一种表示，是互联网上标准资源的地址。通过URL对互联网上的资源进行访问。URL的常见定义格式为：带方括号[]的为可选项scheme://host[:port#]/path/…/[;url-params][?query-string][#anchor......
JSF预热功能在企业前台研发部的实践与探索
作者：京东零售李孟东00导读企业前台研发部包含了企业业务大部分的对外前台系统，其中京东VOP平台(开放平台)适合于自建内网采购商城平台的企业客户。京东为这类客户专门开发API接口，对接到客户内网的网上商城，将产品SKU直接推送到客户内网，客户内部采购人员可以直接在内网商城进行......
全网最详细中英文ChatGPT-GPT-4示例文档-会议笔记文档智能转摘要从0到1快速入门——官
目录Introduce简介setting设置Prompt提示Sampleresponse回复样本APIrequest接口请求python接口请求示例node.js接口请求示例curl命令示例json格式示例其它资料下载ChatGPT是目前最先进的AI聊天机器人，它能够理解图片和文字，生成流畅和有趣的回答。如果你想跟上AI时代的潮流......
libcurl第五课 Digest Authentication摘要验证使用
场景在安迅士摄像机网页上，配置系统选项，HTTP/RTSPPasswordSettings中，选择Encryptedonly。获取设备的云台状态信息，使用的是摘要认证例子voidCAnXunShiConn::TestlibCurlHTTPDegistAuth(){CURL*pCurlHandle=curl_easy_init();curl_easy_setopt(pCurlHand......
url rewrite功能实现
背景：abc.com/live/stream.m3u8需要改写成abc.com/live/stream/index.m3u8通过lua实现的逻辑如下修改nginx.conf主配置文件，增加rewrite_by_lua_file，指定改写脚本http{ rewrite_by_lua_filelua/rewrite/rewrite_main.lua;}lua/rewrite/rewrite_main.lua文件编写处......
7·1HTTP协议的瓶颈|7·2双工通信的WebScoket|7·3探索式的实践-SPDY|7·4期盼已久的H
HTTP协议的瓶颈影响Http网络请求的原因带宽延迟HTTP协议的瓶颈一条连接上只可发送一个请求请求只能从客户端开始。客户端不可以接受除响应意外的指令请求/响应头部不经压缩就发送每次互相发送相同的头部造成的浪......
探索宠物app如何利用人工智能提供更智能的服务
随着人工智能技术的不断发展，越来越多的宠物app开始利用人工智能技术提供更智能的服务，这些服务不仅能够帮助宠物主人更好地照顾宠物，还能增强宠物主人和宠物之间的互动性。一、智能喂食在宠物喂养方面，智能喂食器是目前比较常见的应用。智能喂食器可以设置不同的喂食时间和食量，还......
sizeof 和 strlen 的区别
sizeof() 是一个运算符，而 strlen() 是一个函数。sizeof() 计算的是变量或类型所占用的内存字节数，而 strlen() 计算的是字符串中字符的个数。sizeof() 可以用于任何类型的数据，而 strlen() 只能用于以空字符‘0’结尾的字符串。注意：chars[]="hello"prinrf("%......
科技发展的未来：探索数据驱动的智能科技创新
科技的快速发展，我们的生活也变得越来越依赖科技。从智能手机到智能家居，从人工智能到大数据，科技正在改变着我们的生活方式和工作方式。在这个快速变化的世界中，数据驱动的智能科技创新成为了科技发展的未来方向。一、数据驱动的智能科技创新数据驱动的智能科技创新是指利用大数据......