目前已经理清整个ctrl-sim的具体操作步骤和流程
标题:
CtRL-Sim:具有离线强化学习的反应性和可控驱动代理
作者:
Luke Rowe, Roger Girgis, Anthony Gosselin, Bruno Carrez, Florian Golemo, Felix Heide, Liam Paull, Christopher Pal
机构:
Mila, Université de Montréal, Polytechnique Montréal, Princeton University, CIFAR AI Chair, Torc Robotics
摘要:
这篇论文提出了一种名为 CtRL-Sim 的方法,用于在物理增强的 Nocturne 模拟器中利用返回条件离线强化学习来生成反应性和可控的流量代理。研究通过 Nocturne 模拟器处理真实世界的驾驶数据,生成多样化的离线强化学习数据集,并用各种奖励术语进行注释。训练后的模型允许通过修改奖励组件的期望回报来细粒度地操作智能体行为,从而生成广泛的驾驶行为,包括对抗行为。实验结果表明,CtRL-Sim 能有效生成多样化和现实的安全关键场景,并提供对代理行为的细粒度控制。
引言部分:
介绍了自动驾驶汽车(AV)在复杂城市驾驶环境中的进展和面临的挑战。提出了仿真作为验证 AV 安全性的重要工具,并介绍了现有方法的局限性。
方法部分:
详细描述了 CtRL-Sim 的实现,包括利用 Nocturne 模拟器生成离线强化学习数据集、训练回报条件的多智能体行为模型、以及通过修改奖励组件实现细粒度行为控制的过程。
其实总结来说就是通过CMake编译出夜曲整合BOX2D的整个测试环境,然后通过不断调整参数去完成强化学习的步骤,只不过强化学习参数的调整需要自己琢磨,目前来说我觉得是这样的,错了轻喷,后续会继续补充。
标签:Nocturne,细粒度,进展,CtRL,ctrl,离线,sim,强化,Sim From: https://www.cnblogs.com/FengmoBlog/p/18283783