首页 > 其他分享 >offline RL | D4RL:最常用的 offline 数据集之一

offline RL | D4RL:最常用的 offline 数据集之一

时间:2024-03-09 17:45:22浏览次数:14  
标签:D4RL agent 任务 https RL offline 数据


数据集简介

  • Gym-MoJoCo(感觉是最常用的):
    • medium:使用 online SAC 训练到一半,然后使用该策略收集 1M 的样本;
    • random:利用随机初始化的策略,收集 1M 的样本;
    • medium-replay:训练到中等质量水平,整个 replay buffer 收集的数据;
    • medium-expert:等量混合专家数据集和次优数据集,次优数据通过次优策略或随机策略获得。
  • Maze 系列:
    • umaze / medium / large 是迷宫布局(迷宫形状与大小)。
    • diverse 从随机起点到随机目标,play 起点和终点在一组固定点中随机选择。
  • Adroit:
    • 24 Dof 的灵巧手,非常困难。
    • human:来自人类的少量 demo 数据(每个任务 25 个轨迹)。
    • expert:使用训练良好的 RL 策略,生成大量数据。
    • clone:通过在人类 demo 上训练模仿策略,运行策略,并以 1-1 的比例与人类 demo 数据混合。
  • Franka Kitchen:
    • 在包含几种常见家居用品(微波炉、水壶、顶灯、橱柜、烤箱)的厨房环境中,控制 9-DoF Franka 机器人。环境中具有多个任务,需要与不同的物品进行交互,以达成不同的任务目标。
    • 难点(?):需要对 unseen state 泛化,而非完全依赖于 seen trajectory。貌似需要把 从先前任务中学到的 小段轨迹 拼接起来。
    • complete:agent 按顺序执行所有所需任务,适用于 imitation learning。
    • partial:agent 在做有意义的动作,但并不一定完成任务。partial 数据集的一个子集可以保证解决任务,这意味着,模仿学习 agent 可以通过有选择地选择正确的数据子集,来达成任务的学习。
    • mixed:agent 在做有意义的动作,但并不一定完成任务。mixed 数据集不包含完全解决任务的轨迹,agent 必须学会组装相关的子轨迹。mixed 数据集需要最高程度的泛化才能成功。
  • Flow 和 Carla,暂时不关注。
img

标签:D4RL,agent,任务,https,RL,offline,数据
From: https://www.cnblogs.com/moonout/p/18063035

相关文章

  • python urllib.parse urlparse path url路径分割
    前言全局说明pythonurllib.parseurlparsepathurl路径分割一、获取路径部分#!/usr/bin/envpython3#coding:UTF-8#-*-coding:UTF-8-*-fromurllib.parseimporturlparseurl='http://www.baidu.com/aa/bb/cc/index.html'print("url:",url)parsed......
  • yolo-world 源码解析(一)
    .\YOLO-World\configs\deploy\detection_onnxruntime-fp16_dynamic.py#设置基础路径为指定的配置文件路径_base_=('../../third_party/mmdeploy/configs/mmdet/detection/''detection_onnxruntime-fp16_dynamic.py')#定义代码库配置,包括模型类型、任务类型、后处......
  • yolo-world 源码解析(二)
    .\YOLO-World\configs\pretrain\yolo_world_v2_l_vlpan_bn_2e-3_100e_4x8gpus_obj365v1_goldg_train_1280ft_lvis_minival.py#设置基础配置文件路径_base_=('../../third_party/mmyolo/configs/yolov8/''yolov8_l_syncbn_fast_8xb16-500e_coco.py�......
  • Linux架构24 ansible之get_url模块, 服务管理模块, 用户管理模块, 定时任务模块, 挂载
    3.get_url模块-name:Downloadfoo.confget_url:url:http://example.com/path/file.confdest:/etc/foo.confmode:'0440'checksum:md5:b5bb9...#公司内部库,验证文件是否为要求的文件checksum:sha256:b5bb9...#另一种验证方式......
  • yolo-world 源码解析(三)
    .\YOLO-World\configs\segmentation\yolo_world_seg_l_dual_vlpan_2e-4_80e_8gpus_seghead_finetune_lvis.py_base_=('../../third_party/mmyolo/configs/yolov8/yolov8_l_mask-refine_syncbn_fast_8xb16-500e_coco.py')#定义基础配置文件路径custom_imports......
  • yolo-world 源码解析(四)
    PreparingDataforYOLO-WorldOverviewForpre-trainingYOLO-World,weadoptseveraldatasetsaslistedinthebelowtable:DataSamplesTypeBoxesObjects365v1609kdetection9,621kGQA621kgrounding3,681kFlickr149kgrounding641kCC3M-L......
  • yolo-world 源码解析(五)
    .\YOLO-World\yolo_world\datasets\transformers\mm_transforms.py#导入所需的库importjsonimportrandomfromtypingimportTupleimportnumpyasnpfrommmyolo.registryimportTRANSFORMS#注册RandomLoadText类为TRANSFORMS模块@TRANSFORMS.register_module......
  • Hello,World
    HelloWorld随便新建一个文件夹,存放代码新建java文件文件后缀.javaHello.java[注意点]系统可能没有显示文件后缀名,需要手动打开编写代码publicclassHello{ publicstaticvoidmain(String[]args){ System.out.print("Hello,World!"); }}编译javac.jav......
  • macos使用包含urllib.request的多进程问题
    urllib.request模块的官方文档在macOS上使用urllib.request模块与os.fork()的问题主要与多进程编程和系统API的交互有关。具体来说,urllib.request模块在获取代理设置时会调用macOS的系统级函数来获取这些信息,而这些函数可能并不是“fork-safe”的。当你在Python......
  • CF1353E K-periodic Garland 题解
    分析考虑DP。定义状态函数\(f_i\)表示处理完前\(i\)个字符且第\(i\)个字符为\(1\)时的最小代价。则对于\(i\),有两种情况:\(i\)不是第一个\(1\),则上一个\(1\)的位置必定为\(i-k\)。\(i\)是第一个\(1\),没有上一个\(1\)。得到转移方程:\(f_i=\min(f_{\max(......