• 2024-11-21RL 基础 | 如何复现 PPO,以及一些踩坑经历
    最近在复现PPO跑MiniGrid,记录一下…这里跑的环境是Empty-5x5和8x8,都是简单环境,主要验证PPO实现是否正确。01ProximalpolicyOptimization(PPO)(参考:知乎|ProximalPolicyOptimization(PPO)算法理解:从策略梯度开始)首先,策略梯度方法的梯度形式是\[\nabla_\theta
  • 2024-01-21offline RL | ABM:从 offline dataset 的好 transition 提取 prior policy
    ICLR2020,666。材料:论文题目:KeepDoingWhatWorked:BehaviorModellingPriorsforOfflineReinforcementLearning项目网站:https://sites.google.com/view/behavior-modelling-priorspdf版本:https://arxiv.org/pdf/2002.08396.pdfhtml版本:https://ar5iv.labs.arxi
  • 2023-11-29强化学习:AC算法中为什么不使用Q函数来表示优势函数
      《High-DimensionalContinuousControlUsingGeneralizedAdvantageEstimation》      ====================== 原论文: 
  • 2023-11-19offline RL | TD3+BC:在最大化 Q advantage 时添加 BC loss 的极简算法
    题目:AMinimalistApproachtoOfflineReinforcementLearning,NeurIPS2021,8775。pdf版本:https://arxiv.org/pdf/2106.06860.pdfhtml版本:https://ar5iv.labs.arxiv.org/html/2106.06860(感觉写的蛮好的)openreview:https://openreview.net/forum?id=Q32U7dzWXpcgithub
  • 2023-09-29Ubuntu16.04配置ESM软件源修复高危漏洞
    Ubuntu16.04配置ESM软件源修复高危漏洞注:ESM是收费的1、安装ubuntu-advantage-tools和ubuntu-advantage-pro生成pro、ua命令,软件包需要网上下载#dpkg-iubuntu-advantage-tools_28.1_16.04_amd64.deb#dpkg-iubuntu-advantage-pro_28.1_16.04_all.deb  如果有报依赖可执行a