advantage

2024-11-21RL 基础 | 如何复现 PPO，以及一些踩坑经历
最近在复现PPO跑MiniGrid，记录一下…这里跑的环境是Empty-5x5和8x8，都是简单环境，主要验证PPO实现是否正确。01ProximalpolicyOptimization（PPO）（参考：知乎|ProximalPolicyOptimization(PPO)算法理解：从策略梯度开始）首先，策略梯度方法的梯度形式是\[\nabla_\theta
2024-01-21offline RL | ABM：从 offline dataset 的好 transition 提取 prior policy
ICLR2020，666。材料：论文题目：KeepDoingWhatWorked:BehaviorModellingPriorsforOfflineReinforcementLearning项目网站：https://sites.google.com/view/behavior-modelling-priorspdf版本：https://arxiv.org/pdf/2002.08396.pdfhtml版本：https://ar5iv.labs.arxi
2023-11-29强化学习：AC算法中为什么不使用Q函数来表示优势函数
《High-DimensionalContinuousControlUsingGeneralizedAdvantageEstimation》 ====================== 原论文：
2023-11-19offline RL | TD3+BC：在最大化 Q advantage 时添加 BC loss 的极简算法
题目：AMinimalistApproachtoOfflineReinforcementLearning，NeurIPS2021，8775。pdf版本：https://arxiv.org/pdf/2106.06860.pdfhtml版本：https://ar5iv.labs.arxiv.org/html/2106.06860（感觉写的蛮好的）openreview：https://openreview.net/forum?id=Q32U7dzWXpcgithub
2023-09-29Ubuntu16.04配置ESM软件源修复高危漏洞
Ubuntu16.04配置ESM软件源修复高危漏洞注：ESM是收费的1、安装ubuntu-advantage-tools和ubuntu-advantage-pro生成pro、ua命令，软件包需要网上下载#dpkg-iubuntu-advantage-tools_28.1_16.04_amd64.deb#dpkg-iubuntu-advantage-pro_28.1_16.04_all.deb 如果有报依赖可执行a