首页 > 其他分享 >offline RL · RLHF · PbRL | OPPO:PbRL 场景的 offline hindsight transformer

offline RL · RLHF · PbRL | OPPO:PbRL 场景的 offline hindsight transformer

时间:2024-02-27 21:47:11浏览次数:19  
标签:information transformer statistics PbRL tau offline HIM OPPO



目录


主要内容

  • 在 A+B 场景中应用了 C 方法:A - PbRL、B - offline RL、C - HIM。
  • 猜测动机:
    • abstract 中提到,env dynamics 跟任务目标是正交的;既然任务目标有正交性,感觉就可以通过 hindsight 方式,学习 env dynamics。
  • 模块介绍:
    • information statistics:感觉是得到 hindsight 的方式,输入可能是 RL sequence / RL trajectory 的全局信息,输出是 8(halfcheetah)或 16 维的向量。
  • 具体算法:
    • 交替进行 ① ②。
    • ① 训练条件策略 \(a=\pi(s,z)\)(同时训练 information statistics)。
    • 具体的,采样一波轨迹,用 information statistics 计算 hindsight,然后可能将 hindsight 作为 RL sequence 中的一部分(就像 DT 中 {s, a, R, s, ...} 的 R),这样训练 action。
    • ② 训练 \(a=\pi(s,z)\) 中的最优 z*(论文中称为最优 context)(同时训练 information statistics)。
    • 具体的,采样 segment pair τ+ τ-,计算它们的 latent(通过 information statistics)z+ z-,然后让 z* 尽量靠近 z+、远离 z-。
  • 个人的 random 感觉:
    • rebuttal 有点不够认真… 参见 general response 这种话(并且 general response 感觉也没有什么信息量),感觉有点不好,不过我也不懂…(后来发现,好像如果 general response 有信息量,也没什么不好的,比如 HIM 就是这样大幅提分)
    • 还有,这个风格感觉刻意模仿 Pieter Abbeel 组,该不会被恶意审稿了叭(后来发现,好像挺多人采用这种方式写作,比我原先想象多一些,所以应该没关系……)
    • 感觉 literature review 写的不够认真,感觉像是工作罗列(是不是赶稿赶出来的ww)
    • 感觉就是在 A+B 场景中应用了 C 方法(A - PbRL、B - offline RL、C - HIM),不过应用的相对合理。(后来感觉,好像也没很合理,很担心它训不出来…)
    • 没有 DT 和 HIM 文章中的彩色伪代码,遗憾的,不然感觉技术细节可以表述更清楚。

0 abstract

This study focuses on the topic of offline preference-based reinforcement learning (PbRL), a variant of conventional reinforcement learning that dispenses with the need for online interaction or specification of reward functions. Instead, the agent is provided with pre-existing offline trajectories and human preferences between pairs of trajectories to extract the dynamics and task information, respectively. Since the dynamics and task information are orthogonal, a naive approach would involve using preference-based reward learning followed by an off-the-shelf offline RL algorithm. However, this requires the separate learning of a scalar reward function, which is assumed to be an information bottleneck. To address this issue, we propose the offline preference-guided policy optimization (OPPO) paradigm, which models offline trajectories and preferences in a one-step process, eliminating the need for separately learning a reward function. OPPO achieves this by introducing an offline hindsight information matching objective for optimizing a contextual policy and a preference modeling objective for finding the optimal context. OPPO further integrates a well-performing decision policy by optimizing the two objectives iteratively. Our empirical results demonstrate that OPPO effectively models offline preferences and outperforms prior competing baselines, including offline RL algorithms performed over either true or pseudo reward function specifications.

  • background:
    • offline PbRL,提供 offline trajectory 和人类对轨迹的偏好,以分别提取 system dynamics 和任务信息。
    • 由于动态信息和任务信息是正交的(无端联想,这种正交就很适合 hindsight,比如 HER),因此,一种简单的方法是 PbRL 学 reward model + offline RL 使用新标记的 reward。然而,这需要单独学习 reward function,是信息瓶颈(information bottleneck)(?)。
  • method:
    • (声称可以 end-to-end 通过 preference 直接学到 policy)
    • Offline Preference-guided Policy Optimization(OPPO),通过 one-step procedure 对 offline trajectory + preference 进行建模,无需单独学习 reward function。
    • OPPO 引入了一个 offline hindsight information matching objective(一个 offline 的 后见之明信息匹配 HIM objective),用于优化 contextual policy(上下文策略 \(a=\pi(s,z)\) );引入了一个 preference modeling objective(建模 preference 的 objective),用于寻找最优 context。
    • OPPO 通过对这两个目标迭代优化,得到 policy。
  • results:在 D4RL 上,OPPO 性能优于先前的 competitive baselines(一些使用真实或伪 reward 的 offline RL 算法)。

open review

  • method:
    • 从轨迹中学习一个 context embedding,然后学习一个 conditioned on context 的 policy。基于 human preference,学最优 context。
  • contributions:
    • 作者声称,相比 ① 学 reward model ② 用 reward model 给 offline trajectory 标记 reward 并跑 offline RL 的 two-step method,end-to-end 直接得到 policy,在“遇到复杂任务”(例如,preference 中包含非马尔可夫信息)和存在 noisy preference 时是有益的,因为在这种情况下,learned reward model 不完善,噪音会被引入政策学习。
    • (reviewer 认为,这些说法听起来很合理,但没有做相关的对比实验,比如引入非马尔可夫 reward 和 noisy preference(?),因此没有证明 OPPO 相对 two-step offline PbRL 的优势)
  • 优点:
    • idea 很有趣,很有现实意义。(似乎被好几个 reviewer 盛赞了?论文 submit 在 2023 年 1 月)
    • 从理论上讲,OPPO 适用于非马尔可夫的偏好信号。对于现实世界的 PbRL 来说,这是一个重要的问题,因为不能假设真实人类具有马尔可夫性。作者:然而,我们认为 OPPO 在非马尔可夫任务上的优势,可能源于我们的实现使用了 transformer,这是一种通常用于序列建模的模型。(…)
  • 缺点:
    • novelty:
      • 像是 hindsight information matching (HIM)(一种监督学习方法)的应用。
      • 学习 reward model 与学 context + optimal context,感觉是一回事。
    • 写作不好。(确实,感觉摘要就有点读不懂)
    • 一般来说,离线 RL 依靠 pessimistic 来克服 distribution shift,但是 OPPO 不需要,为什么呢?(DT 和 HIM 貌似也不需要,大概是因为 transformer)
    • experiments:
      • 4 个 baselines 中只有一个 (Table 2) 是真正的 PbRL 算法。
      • 应考虑非运动任务(non-locomotion tasks)。
      • 没有真实的 human feedback(因为他们最初声称 human preference 可能包括噪音、不正确和非马尔可夫)。
      • 应评估所需的 preference queries 数量,因为这通常是 PbRL 的一个限制因素。
      • 没有跑 D4RL 的 random dataset。好像并不总是 outperform baselines。

发现 offline PbRL 还有两个先前工作:1. OPAL 采用 MLP,2. PT 采用 Transformer。

upside-down RL 貌似是神秘工作,跟 HER 并列出现。

(感觉 related work 有点浅,没有看到好看的信息…)

3 preliminaries:3.2 Hindsight Information Matching

  • 对 HIM 进行神秘 offline 魔改,先学 trajectory,再学 I(τ) 与 z 相似。

    • 在 offline 场景下,需要先对 trajectory 本身进行建模,目标函数的一部分是 \(\min_\pi \mathbb E_{\tau\sim D(\tau),\tau_z\sim\pi(z)}[l(\tau,\tau_z)]\) ,其中 L 是 loss function。
    • 然后再去最小化,我们的 trajectory 的 information statistics 与 z 相似。
  • 整体的 HIM objective 是: \(\min_\pi \mathbb E_{\tau\sim D(\tau),\tau_z\sim\pi(z)} \bigg[l(I(\tau),I(\tau_z))+l(\tau,\tau_z)\bigg]\) 。

    • 原来如此!公式中 τ_z 是我们生成的 trajectory;希望它尽可能接近原有 trajectory,是为了防止 OOD。

4 OPPO: Offline Preference-guided Policy Optimization

4.1 HIM-driven Policy Optimization

  • HIM objective: \(\min_{\pi,I_\theta} \mathbb E_{\tau\sim D(\tau),\tau_z\sim\pi(z)} \bigg[l(I_\theta(\tau),I_\theta(\tau_z))+l(\tau,\tau_z)\bigg]\) 。
  • 目标:最小化 trajectory OOD loss + information statistics 的 loss。
    • 跟 section 3 的 objective 不同,这里面的 \(I_\theta\) 是需要我们学的。
    • 一边学 information statistics,一边用得到的 information statistics 作为 hindsight 学 action(DT 和 HIM 的训练方法),真能学出来嘛(?)

4.2 Preference Modeling

  • objective: \(\min_{z^*,I_\theta}\mathbb E_{(\tau^i,\tau^j,y)\sim D_\succ}\bigg[l(z^*,z^+)-l(z^*,z^-)\bigg]\) 。

    • 其中,z* 是我们希望得到的最优 embedding,用于在 conditional policy \(a=\pi(s,z)\) 中生成最优 policy。z+ z-,是 query 中的好轨迹 / 坏轨迹的 embedding。
    • embedding:应该是用 information statistics \(I_\theta\) 提取的吧。
  • 目标:希望 z* 能尽可能接近 z+、远离 z-。

    • 然后,我们就直接使用 \(\pi(s,z^*)\) ,作为最终输出的策略了。
    • (z 只是一个 embedding 而已,这应该是能训出来的…)
    • (不过可怕的事情是,这个 embedding 是 information statistics 变换得到的,如果前面 4.1 的训练中 information statistics 乱变,岂不像是打移动靶…… 并且这一步的 information statistics 还要再训,感觉在同时训大量相互影响的模块,真能训出来嘛(?))
    • 不同于基于 HIM 的 offline RL 算法(例如 DT、RvS-G),OPPO 不需要在 evaluate 阶段手动指定 policy \(\pi(a|s,\cdot)\) 的目标上下文 z。(发现这篇文章在措辞上,好像用 context 代替了 hindsight)

4.3 算法

训练过程:

  • 交替更新 z* 和 information statistics \(I_\theta\) 。

算法:

  • 输出:conditional policy \(\pi(a|s,z)\) 和最优 embedding z*。
  • HIM-driven Policy Optimization:
    • 从 dataset D 中 sample 一个 batch 的 trajectory τ。
    • 使用 HIM objective,更新 \(\pi(a|s,z)\) 和 \(I_\theta\) 。
    • 目标:寻找 trajectory τ_z 使其分布与 τ 相似(不要 OOD),同时训练 information statistics \(I_\theta\) 使 τ_z 和 τ 的 information statistics 相似。
    • 希望:给定 encoder 从 offline trajectory 中提取出来的 z,policy 能够重建这个 trajectory。
  • Preference Modeling:
    • 从 dataset \(D_\succ\) 中 sample 一个 batch 的 preference \(\{(\tau^i,\tau^j,y)\}\) 。
    • 使用 preference modeling 的 objective,更新 \(I_\theta\) 和 optimal z*。
    • 目标:使最优嵌入 z* 接近更优的轨迹 z+ 、远离轨迹 z− 。

实现细节:

  • 添加 normalization loss,对 Iθ 产生的 embedding 的 L2 范数进行惩罚。

  • 所有的 loss:

    • 1 更新 information statistics(轨迹 embedding 的 encoder),让 hindsight = IS(s, a, s, ...) 时,seq2seq model 能输出下一个 action。
    • 2 push 最优 embedding 去接近 segment pair 里的好轨迹的 embedding、远离坏轨迹的 embedding。
    • 3 对 embedding 的 L2 范数进行惩罚。
  • 代码基于 DT。benchmark 是 D4RL。

  • z* 的维度为 8(halfcheetah)或 16(其他任务)。

  • Transformer 的超参数:

    • Number of layers(层数):3。
    • Number of attention heads:2 for encoder transformer,1 for decision transformer(这么少嘛,记得 DT 是 8 个 heads)。
    • Embedding dimension(embedding 维度):128。
  • 在包含 20 个 GeForce RTX 2080 Ti 和 4 个 NVIDIA Tesla V100 32GB 的计算集群上运行 20 天。(这边的情报说 2 块 24gb 的 3090 跑 3h 就能训出一个 DT 了,不过 1. 对 GPU 性能没概念,2. 没亲自跑过 DT,所以不了解…)

  • 详见 Appendix 1。



标签:information,transformer,statistics,PbRL,tau,offline,HIM,OPPO
From: https://www.cnblogs.com/moonout/p/18038454

相关文章

  • offline RL | HIM:基于 hindsight 的 RL 是一类大 idea
    题目:GeneralizedDecisionTransformerforOfflineHindsightInformationMatching,ICLR2022,688spotlight。其中一个8分是从5分rebuttal上来的;貌似对于其他reviewer,rebuttal也提分很多。pdf版本:https://arxiv.org/pdf/2111.10364.pdfhtml版本:https://ar5iv.lab......
  • offline RL | 读读 Decision Transformer
    论文标题:DecisionTransformer:ReinforcementLearningviaSequenceModeling,NeurIPS2021,6679poster(怎么才poster)。pdf:https://arxiv.org/pdf/2106.01345.pdfhtml:https://ar5iv.labs.arxiv.org/html/2106.01345openreview:https://openreview.net/forum?id=a7APmM4......
  • 【论文随笔】多行为序列Transformer推荐(Multi-Behavior Sequential Transformer Reco
    前言今天读的论文为一篇于2022年7月发表在第45届国际计算机学会信息检索会议(SIGIR'22)的论文,文章主要为推荐系统领域提供了一个新的视角,特别是在处理用户多行为序列数据方面,提出了一种有效的Transformer模型框架。要引用这篇论文,请使用以下格式:[1]Yuan,Enming,etal."Multi......
  • Mamba详细介绍和RNN、Transformer的架构可视化对比
    Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm,人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba(一种状态空间模型)。Mamba:Linear-TimeSequenceModelingwithSelectiveStateSpaces一文中提出了Mamba,我们......
  • 运行 decision transformer 遇到的问题
    简介本质上强化学习也是为了预测下一个action,那能否借用大模型的方法来实现next-action的预测。业界有多篇借用大模型的方法(transfomer)来实现这个目的。伯克利的这篇算是最为彻底和简洁。https://sites.google.com/berkeley.edu/decision-transformer transfomer官方网站......
  • python-transformers库
    python-transformers库目录python-transformers库安装测试功能和优势Transformers术语模型与分词器加载预训练模型保存模型分词器编码和解码填充Padpipelinepipeline简介pipeline原理参考资料transformers是一个用于自然语言处理(NLP)任务,如文本分类、命名实体识别,机器翻译等,提供......
  • 【译】稀疏混合专家模型的崛起: Switch Transformers
    原作: 塞缪尔·弗兰德引言:为最强大的语言模型铺平道路的核心技术 使用Dall-E生成的图像稀疏混合专家模型(MoE)已成为最新一代LLMs的核心技术,例如OpenAI的GPT-4、MistralAI的Mixtral-8x7等。简而言之,稀疏MoE是一种非常强大的技术,因为理论上,它允许我们以O(1)的......
  • Install office 365 offline
    Copyfrom  https://github.com/KangHidro/office365-offline-installer?tab=readme-ov-fileDownload:OfficeDeploymentTool: https://www.microsoft.com/en-us/download/details.aspx?id=49117Extractandtakeonly setup.exeO365ProPlusISO: https://officecd......
  • Hugging Face-Transformers中的AutoModelForCausalLM 和 AutoTokenizer
    AutoModelForCausalLM 和 AutoTokenizer 是HuggingFace的Transformers库中的两个类,用于处理自然语言处理(NLP)任务。AutoModelForCausalLM 是用于因果语言建模的模型的自动类,它可以加载不同的预训练模型进行文本生成任务。AutoTokenizer 用于加载与这些模型相对应的预训练分......
  • offline 2 online | Cal-QL:校准保守 offline 训出的 Q value,让它与真实 reward 尺度相
    论文标题:Cal-QL:CalibratedOfflineRLPre-TrainingforEfficientOnlineFine-Tuning.NeurIPS2023,5566poster;ICLRRRLworkshop2023spotlight(神秘),两个4:Goodpaper,strongaccept。应该是先投的ICLRworkshop再投的NeurIPS2023吧…pdf:https://arxiv.org/pd......