最近在草率地调研 RL 的 exploration。
这篇文章也比较草率,仅能起到辅助作用,不能代替读 review 或更精细的读 paper。
目录
1 主要参考资料
- https://www.sciencedirect.com/science/article/pii/S1566253522000288
- 一篇 review,感觉不太好读。
- https://lilianweng.github.io/posts/2020-06-07-exploration-drl/
- 很好的博客,主要参考它。
- https://journals.sagepub.com/doi/10.1177/1729881418775849
- 18 年的 review,关于 memory-based exploration,还没读。
- 一些可爱的 new bing。
2 RL 的主流 exploration 方法
在 review(第一个参考资料)中,exploration 的研究有两种动机:效率动机 与 安全动机。前者希望 exploration 能帮助 RL 尽快学会,而后者希望 RL 试错学习的过程中 保证安全性。
- 安全动机的 exploration 的主要方法:
- 罚函数(给非常大的负 reward);
- 基于一些先验知识 强行限制(如强行改不安全的 action)。
对于效率动机的 exploration,这是 lilian weng 博客(第二个参考资料)的目录:
我们的重点放在 1 prediction-based,2 memory-based。其他感觉都不是主流方法。
2.1 经典 exploration 方法
- ε-greedy:随机探索的概率是 ε。
- Upper Confidence Bound:最大化 \(\hat Q(a)+\hat U(a)\),其中 U 与 action 次数成反比。
- Boltzmann exploration,Thompson sampling:
-
bing:玻尔兹曼探索是不确定性下 sequential decision 的经典策略,是强化学习(RL)中最标准的工具之一。它从玻尔兹曼分布 (softmax) 中获取的 Q value 上的 action,由温度参数 τ 调节.
汤普森采样以威廉·R·汤普森(William R. Thompson)的名字命名,是一种启发式方法,用于选择解决 multi-armed bandit problem 中 exploration-exploitation 困境的 action。它包括选择最大化随机抽取信念(randomly drawn belief)的预期 reward 的 action.
-
- 添加一个 entropy loss \(H(\pi(a|s))\),鼓励 action diversity。
- noise-based exploration:在 obs action 甚至 parameter space 里面掺 noise。
- count-based exploration:用密度模型(或者某些哈希)来近似 state 访问的频率,然后用 \(1/\sqrt{N(s,a)}\) 之类作为 intrinsic reward,N 越小,reward 越大。
2.2 prediction-based method:
学习 env 的 dynamics
- Intelligent Adaptive Curiosity(IAC):
- Intrinsic Curiosity Module(ICM):
- Variational information maximizing exploration(VIME):
不学 env dynamics 了
- Directed Outreaching Reinforcement Action-Selection(DORA):
- Random Network Distillation(RND):
- Never Give Up(NGU):
2.3 memory-based method
- Episodic Curiosity:
- Go-Explore:
- policy-based Go-Explore
- DTSIL(Diverse Trajectory-conditioned Self-Imitation Learning)
2.4 其他
- Q exploration,Q 值近似,Bootstrapped DQN:
- Variational Options
- Variational Intrinsic Control:训一堆能在不同 state 下终止的 policy,然后看哪个最好??
- Variational Auto-encoding Learning of Options by Reinforcement(VALOR):没看。