首页 > 其他分享 >offline RL | Pessimistic Bootstrapping (PBRL):在 Q 更新中惩罚 uncertainty,拉低 OOD Q value

offline RL | Pessimistic Bootstrapping (PBRL):在 Q 更新中惩罚 uncertainty,拉低 OOD Q value

时间:2023-12-17 15:45:11浏览次数:44  
标签:Pessimistic OOD PBRL ood uncertainty policy offline


0 abstract

Offline Reinforcement Learning (RL) aims to learn policies from previously collected datasets without exploring the environment. Directly applying off-policy algorithms to offline RL usually fails due to the extrapolation error caused by the out-of-distribution (OOD) actions. Previous methods tackle such problem by penalizing the Q-values of OOD actions or constraining the trained policy to be close to the behavior policy. Nevertheless, such methods typically prevent the generalization of value functions beyond the offline data and also lack precise characterization of OOD data. In this paper, we propose Pessimistic Bootstrapping for offline RL (PBRL), a purely uncertainty-driven offline algorithm without explicit policy constraints. Specifically, PBRL conducts uncertainty quantification via the disagreement of bootstrapped Q-functions, and performs pessimistic updates by penalizing the value function based on the estimated uncertainty. To tackle the extrapolating error, we further propose a novel OOD sampling method. We show that such OOD sampling and pessimistic bootstrapping yields provable uncertainty quantifier in linear MDPs, thus providing the theoretical underpinning for PBRL. Extensive experiments on D4RL benchmark show that PBRL has better performance compared to the state-of-the-art algorithms.

  • background:
    • offline RL 从之前收集的 dataset 中学习策略,而无需探索环境。由于 OOD actions 导致的 extrapolation error,将 off-policy RL 直接应用于 offline RL 通常会失败。
    • 先前工作通过 penalize OOD action 的 Q value,或去约束 trained policy 接近 behavior policy 来解决此类问题。
    • 然而,这些方法通常阻止了 value function generalize 到 offline dataset 之外,并且也缺乏对 OOD data 的精确表征(characterization)。
  • method:
    • 我们提出了 offline RL 的悲观引导(Pessimistic Bootstrapping,PBRL),它是一个纯粹的 uncertainty-driven 的 offline 算法,没有明确的 policy constraint。
    • 具体的,PBRL 通过 bootstrapped Q functions 的 disagreement 进行 uncertainty 的量化,并根据所估计的 uncertainty,对 value function 进行惩罚,从而实施 pessimistic updates。
    • 对于 extrapolation error 的处理,我们进一步提出了一种新的 OOD sampling 方法。
    • 理论:上述 OOD sampling + pessimistic bootstrapping,在 linear MDP 中形成了一个 uncertainty 的量化器,是可以证明的。
  • 实验:
    • 在 D4RL 基准测试上的大量实验表明,与最先进的算法相比,PBRL 具有更好的性能。

3 method

3.1 使用 bootstrapped-Q function 进行 uncertainty 的量化

  • 维护 K 个各自 bootstrap 更新的 Q-function。
  • uncertainty \(U(s,a)=\mathrm{std}(Q^k(s,a))=\sqrt{\frac1K\sum(Q^k-\bar Q)^2}\) 。(看 figure 1(a),感觉定义是有道理的)

3.2 pessimistic learning - 悲观学习

  • idea:基于 uncertainty 来惩罚 Q function。

  • PBRL 的 loss function 由两部分组成:① ID 数据的 TD-error、② OOD 数据的伪 TD-error。

  • ① ID 数据的 TD-error,见公式 (4),大概就是 \(\hat T^{in}Q^k(s,a):=r+\gamma \hat E\big[Q^k(s',a')-\beta_{in}U(s',a')\big]\) ,对所转移去的 (s',a') 的 uncertainty 进行惩罚。

    • (上文的 ID (s, a, r, s', a') 由 offline dataset 得到)
  • ② OOD 数据的伪 TD-error,s' 好像是 ID 的 state,a' 是 policy 生成的(可能是 OOD 的)action。

    • 惩罚方式的 idea: \(\hat T^{ood}Q^k(s^{ood},a^{ood}):=Q^k(s^{ood},a^{ood})-\beta_{ood}U(s^{ood},a^{ood})\) ,直接减去它的 uncertainty。
    • (如果 (s,a) 是 ID state-action,那么 uncertainty 会很小)
    • 相关的实现细节:早期 Q function 的截断 \(\max[0, \hat T^{ood}Q^k(s,a)]\) ,在训练初期使用大的 β ood 实现对 OOD action 的强惩罚,在训练过程中不断减小 β ood 的值。
    • (感觉也算是使用 sarsa 式更新…)
  • loss function:

  • \[L_{critic}=\hat E_{(s,a,r,s')\sim D_{in}}\bigg[(\hat T^{in}Q^k-Q^k)^2\bigg] + \hat E_{s^{ood}\sim D_{in},~a^{ood}\sim\pi(s^{ood})}\bigg[(\hat T^{ood}Q^k-Q^k)^2\bigg] \]

  • policy: policy 希望最大化 Q function,具体的,最大化 ensemble Q 中的最小值。

3.3 是理论。



标签:Pessimistic,OOD,PBRL,ood,uncertainty,policy,offline
From: https://www.cnblogs.com/moonout/p/17909147.html

相关文章

  • RLHF · PbRL | 选择 near on-policy query,加速 policy learning 收敛速度
    论文题目:Query-PolicyMisalignmentinPreference-BasedReinforcementLearning,ICML2023Workshop“TheManyFacetsofPreference-BasedLearning”。(其实不太知道workshop是什么概念…)pdf版本:https://arxiv.org/abs/2305.17400html版本:https://ar5iv.labs.arxiv.or......
  • 初中英语优秀范文100篇-028How to Be a Good Internet User-如何成为一名合格的网民
    PDF格式公众号回复关键字:SHCZFW028记忆树1Withthedevelopmentofthetechnology,mostofusareabletousetheInternet.翻译随着科技的发展,我们大多数人都能够使用互联网。简化记忆互联网句子结构这句话的结构是:时间状语从句(Withthedevelopmentofthet......
  • 题解 CF1887E【Good Colorings】
    萌萌交互题。对网格图进行二分图建模,左部\(n\)个点表示每一行,右部\(n\)个点表示每一列。若格子\((i,j)\)被染成\(c\)色,就连接\((L_i,R_j,c)\)的边。由抽屉原理易证,在初始局面中至少有一个各边颜色均不同的偶环。获胜条件相当于存在一个各边颜色均不同的四元环。讨论......
  • High-Efficiency Lossy Image Coding Through Adaptive Neighborhood Information Agg
    目录简介创新点内容EntropyCodingUsingMultistageContextModel模型结构残差邻域注意力块ResidualNeighborhoodAttentionBlockRNAB激活函数高斯误差线性单元激活函数GELU并行解码简介创新点IntegratedConvolutionandSelf-Attention(ICSA)unit提出集成卷积和自......
  • [good]visual studio 2022 创建空的win32程序
    参考这个VS创建空的Win32程序-fenggwsx-博客园(cnblogs.com)   编译运行 ......
  • 初中英语优秀范文100篇-026Healthy Food-健康的食物
    PDF格式公众号回复关键字:SHCZFW026记忆树1Healthisveryimportantforourbody.翻译健康对我们的身体非常重要。简化记忆健康句子结构主语:Health(健康)Health作为句子的主语,表示健康这个概念。谓语:is(是)is作为连系动词,用来连接主语和表语,表达等同、状态或......
  • E. Good Triples
    首先假定已经找到abc符合题目条件。则我们假定a1,a2,a3...;b1,b2,b3...;c1,c2,c3...为abc各个位置上的数字,那么  a1 a2 a3  b1 b2 b3+c1 c2 c3----------------  x1  x2  x3又由digsum等式可知a1+b1+c1+...=x1+x2+x3。那么我们根据竖式不难发......
  • 【POJ 2418】Hardwood Species 题解(映射)
    描述阔叶树是一种植物群,具有宽阔的叶子,结出果实或坚果,通常在冬天休眠。美国的温带气候造就了数百种阔叶树种的森林,这些树种具有某些生物特征。例如,虽然橡树、枫树和樱桃都是硬木树,但它们是不同的物种。所有硬木树种加起来占美国树木的40%。另一方面,软木,或针叶树,从拉丁语的意思是......
  • 初中英语优秀范文100篇-023Good Habits Make Me Better -好习惯让我更优秀
    PDF格式公众号回复关键字:SHCZFW023记忆树1Itisessentialtodevelopgoodhabits,whichmakeabigdifferencetoourlife.翻译养成好习惯非常重要,这对我们的生活产生了巨大的影响。简化记忆习惯句子结构主语:It(虚主语)谓语:is(系动词)表语:essential......
  • MOOD|做自己的治疗师
       很久很久没有写博客了。写这篇的原因是这段时间生活太紊乱、太放纵,开始有些害怕、有些惶恐,希望写完这一篇状态能有所改观吧。   这学期的八次心理咨询对我而言帮助很大。现在书架上贴的“Self-CareWheel”几乎成了我在低谷时期的前进纲领,重新打开博客也是因为看到......