首页 > 其他分享 >RLHF · PBRL | SURF:使用半监督学习,对 labeled segment pair 进行数据增强

RLHF · PBRL | SURF:使用半监督学习,对 labeled segment pair 进行数据增强

时间:2023-11-11 20:22:52浏览次数:29  
标签:SURF PBRL labeled augmentation learning based reward data



目录


Open Review

  • 贡献:
    • semi-supervised learning + PBRL。
    • 两部分:① 利用 pseudo-label 和 reference predictor 来整一些 artificial labels,② 裁剪(crop)连续的(consecutive)子序列(sub-sequences)来做 data augmentation。(感觉这两部分貌似是相互独立的)
    • 实验:
      • 实验环境是 Meta-world 和 DMControl suite,结果表明性能显著提升。
      • SURF 仅 access 了少量 expert queries,性能可与 dense-reward SAC 相媲美。
    • 关于 temporal cropping method:
      • 首先,抽取一对长为 50 的 segment,把它们作为 query 给 teacher 送去 label。
      • 然后,我们存储这些 segment,在左右两侧都有 5 的额外边距,即我们存储了长度 = 60 的 segment。
      • 在 reward learning 时,我们在 [Hmin, Hmax] = [45,55] 中,随机选择每个 segment k0,k1 的裁剪长度 H' 和起始位置,然后裁剪连续的 sub-sequences。
      • 详见 Algorithm 1。temporal cropping 的超参数详见 Appendix B。
  • 优点:
    • 实验量充足。formulation 清晰。性能很好。
  • 缺点:
    • reward function 是怎么学的,在第 3 和 4.1 节,reviewer 没太看懂。
    • 如图 6(b) 所示,pseudo-labeling 技术要求超参数 τ 非常大,reviewer 在疑惑,为什么需要非常高的 confidence。这些 high-confidence samples 的 loss 应该非常小,为什么会让最终性能显著提升。(没太听懂)回答:这种高阈值的 pseudo-labeling 在半监督学习领域中,有充分的证明和广泛的应用。
    • 有一个假设太强了:“augmentation 背后的直觉是,对于一对给定的 behavior clips,将它们 slightly shifted 或 resize,human teacher 可能仍然持有相同的 preference。” 反驳:CV 上相似 idea(图像裁剪)的效果很好。
    • 技术上的 novelty 有限。
    • (有两个 reviewer 说)ablation 可以多在几个 task 上做,不然对 TDA(好像是某个 task)的 support 是不够的。(然后就真的补 ablation 了)

0 abstract

Preference-based reinforcement learning (RL) has shown potential for teaching agents to perform the target tasks without a costly, pre-defined reward function by learning the reward with a supervisor’s preference between the two agent behaviors. However, preference-based learning often requires a large amount of human feedback, making it difficult to apply this approach to various applications. This data-efficiency problem, on the other hand, has been typically addressed by using unlabeled samples or data augmentation techniques in the context of supervised learning. Motivated by the recent success of these approaches, we present SURF, a semi-supervised reward learning framework that utilizes a large amount of unlabeled samples with data augmentation. In order to leverage unlabeled samples for reward learning, we infer pseudo-labels of the unlabeled samples based on the confidence of the preference predictor. To further improve the label-efficiency of reward learning, we introduce a new data augmentation that temporally crops consecutive sub-sequences from the original behaviors. Our experiments demonstrate that our approach significantly improves the feedback-efficiency of the state-of-the-art preference-based method on a variety of locomotion and robotic manipulation tasks.

  • 背景:
    • 在没有昂贵的预定义 reward function 情况下,PBRL 已显示出教授 agent 执行目标任务的潜力。具体的,通过 human supervisor 在两种 agent behaviors 之间的 preference,来学习一个 reward model。
    • 然而,PBRL 通常需要大量的人类反馈,因此很难广泛应用。
    • 这种数据效率的问题,通常会在监督学习的背景下,使用未标记的样本(unlabeled samples)或数据增强(data augmentation)技术来解决。
  • method:
    • 受这些方法启发,我们提出了 SURF,一种 semi-supervised reward learning framework,利用大量未标记的样本,进行 data augmentation。
    • 具体的,为了利用 unlabeled samples 进行 reward learning,我们根据 preference predictor 的置信度(confidence),推断未标记样本的伪标签(pseudo-labels)。
    • 为了进一步提高 reward learning 的 label-efficiency,我们引入了一种新的 data augmentation 技术,在时间上从 original behaviors 中 temporally crops consecutive sub-sequences。
  • 实验:SURF 显著提高了最先进的 PBRL 算法在各种 locomotion 和 robot manipulation 任务上的 feedback-efficiency。
  • PBRL。
  • Data augmentation for RL(有趣的,以前没注意过的角度)
  • Semi-supervised learning 半监督学习:还是有很多 literature 的,不太了解这个领域…

4 method: SURF

SURF: a Semi-sUpervised Reward learning with data augmentation for Feedback-efficient preference-based RL.

感觉看一下 Algorithm 就可以了。

4.1 Semi-supervised reward learning - 半监督的 reward learning

  • pseudo-labeling:y hat(σ0, σ1) = 0 if P_ψ[σ0>σ1] > 0.5 else 1 。
  • 为了过滤掉不准确的伪标签,只在 predictor 的 confidence 高于一个 pre-defined threshold 时,才使用 unlabeled samples 进行训练。(confidence 大概指的是,P_ψ[σ0>σ1] > τ,τ 是 confidence 的阈值 )
  • (Algorithm 1,里面出现的 TDA temporal data augmentation 在 Algorithm 2 里)

4.2 Temporal data augmentation for reward learning - reward learning 中的时序数据增强

  • (Algorithm 2)
  • 利用增强样本 \((\hat σ^0,\hat σ^1)\) 来优化公式 (5) 中的交叉熵损失。

5 experiments

Pieter Abbeel 组的 experiments section 经典问题:(如果你不知道经典问题指什么,可以看 PEBBLE RUNE 的本站博客;这三篇文章都是他们组的,写作非常相似)

  • How does SURF improve the existing preference-based RL method in terms of feedback efficiency?
    SURF 如何在反馈效率方面,改进现有的 PBRL 方法?
  • What is the contribution of each of the proposed components in SURF?
    SURF 中每个 proposed components 的贡献是什么?
  • How does the number of queries affect the performance of SURF?
    queries 的数量如何影响 SURF 的性能?
  • Is temporal cropping better than existing state-based data augmentation methods in terms of feedback efficiency?
    在 feedback efficiency 方面,temporal cropping 是否比现有的 state-based data augmentation 方法更好?
  • Can SURF improve the performance of preference-based RL methods when we operate on high-dimensional and partially observable inputs?
    应对高维和 partially observable 的输入时,SURF 能否提高基于 PBRL 方法的性能?

implementation details:

  • 对于 query selection 策略,我们选择 queries with high uncertainty,使用 disagreement-based sampling 方案,即 ensemble disagreement(Appendix B)。
  • 更多细节见 Appendix B。

results:

  • 相比 PEBBLE,surf 需要更少的 queries 数量。
  • 在相同 queries 预算下,surf 可以显著提高 PEBBLE 的性能。
  • ablation 就是将两种技术分别使用,比较它们的训练 curve。
  • ablation 还比较了不同的 query size(是 feedback 数量,好像不是 segment 长度)、不同的 data augmentation 方法、不同的 surf 超参数。
  • 在问题中画饼的“高维 partially observed input”,指的是 section 5.4 的 visual control tasks 嘛?(但是又在 6 discussion 中说是 future direction)


标签:SURF,PBRL,labeled,augmentation,learning,based,reward,data
From: https://www.cnblogs.com/moonout/p/17826284.html

相关文章

  • RLHF · PBRL | PEBBLE:通过 human preference 学习 reward model
    论文题目:PEBBLE:Feedback-EfficientInteractiveReinforcementLearningviaRelabelingExperienceandUnsupervisedPre-training,貌似是ICML2021的文章。本博客为论文阅读笔记,【不能代替】阅读原文的工作量。原文写的也很好,是AI顶会的风格,相对容易读懂。阅读材料:p......
  • swift语言下SurfGen库做的爬虫是什么样的 ?
    Swift语言并没有内置的爬虫库,但是你可以使用第三方库来实现爬虫功能。其中比较常用的是Alamofire和SwiftyJSON。Alamofire是一个基于Swift语言的HTTP网络库,可以用来发送HTTP请求和接收HTTP响应。而SwiftyJSON则是一个用于处理JSON数据的Swift库,可以方便地解析JSON数据。你可以使用......
  • [win]Surface book2 添加自定义分辨率
    surfacebook213.5英寸 是3:2的屏幕,因为默认分辨率3000*2000实在是太高了,看字的时候眼睛有点吃不消 即使开启windows的自定义缩放也有点难受,同时在个性化里面,内置的分辨率居然没有3:2的了...加上windows的文字渲染机制,在高分辨率下开启cleartype后汉字开始有虚边了,所以决定......
  • MITK编译错误C2220 mitkLabelSetImageToSurfaceFilter.cpp
    错误 C2220 以下警告被视为错误(编译源文件E:\0_MITK\MITK\Modules\Multilabel\mitkLabelSetImageToSurfaceFilter.cpp)[E:\0_MITK\MITK\SuperBuild\MITK-build\Modules\Multilabel\MitkMultilabel.vcxproj] MITK-build E:\0_MITK\MITK\SuperBuild\ep\include\ITK-5.2\i......
  • OpenCV4.1.0中的GPU版本的SURF特征点提取类的命名空间、所在头文件和类名
    OpenCV4.1.0中的GPU版本的SURF特征点提取类的命名空间、所在头文件和类名情况如下:类名:cv::cuda::SURF_CUDA所在的命名空间:cv::cuda所在头文件:$\build\install\include\opencv2\xfeatures2d。其中,$是编译OpenCV4.1.0的基础模块和扩展模块时,OpenCV4.1.0源代码所在的位置。 翻......
  • 学习笔记431—freesurfer下载安装,常用术语和recon-all命令
    freesurfer下载安装,常用术语和recon-all命令1基础知识1.1简介freesurfer是一个分析和可视化大脑结构成像和功能成像的工具包,可以处理MRI、fMRI数据,进行大脑解剖学数据测量等。1.2安装freesurfer目前该软件包仅支持Linux和MacOS系统,且官方推荐下载最新版本。官网下载指南......
  • Android View绘制原理-GrSurface
    上一篇文章分析了SkSurface的两种生成方式,他们都需要使用GrSurfaceDrawContext来创建一个SkGpuDevice。生成GrSurfaceDrawContext时其中一种方式生成的是GrSurfaceProxy,另外一种生成的是GrTextureProxy,从它们的名字可以看出,他们是一个代理,他们代理的就是一个GrSurface对象。而这个G......
  • 简读||Dynamic Metasurface Antennas for Uplink Massive MIMO Systems
    用于上行链路大规模MIMO系统的动态超表面天线摘要:大规模多输入多输出(MIMO)通信是近年来人们广泛关注的焦点。虽然大规模MIMO的理论增益已经确立,但在实践中实现具有大规模天线阵列的MIMO系统仍具有挑战性。与大规模MIMO系统相关的实际挑战包括成本、功耗和物理尺寸的增加。......
  • Android surfaceview的使用方式
    1.什么是surfaceviewsurfaceview内部机制和外部层次结构在安卓开发中,我们经常会遇到一些需要高性能、高帧率、高画质的应用场景,例如视频播放、游戏开发、相机预览等。这些场景中,我们需要直接操作图像数据,并且实时地显示到屏幕上。如果我们使用普通的view组件来实现这些功能,可能会......
  • AndroidStudio SurfaceView SurfaceHolder关系
    电视机就像是屏幕,而SurfaceView则是你要在屏幕上显示的内容。然而,你不能直接在电视机上直接绘制内容,就像你不能直接在SurfaceView上绘制内容一样。这就是SurfaceHolder登场的地方。SurfaceHolder就像是遥控器,它是控制你如何在电视屏幕上显示内容的工具。你通过遥控器来切......