首页 > 其他分享 >Uncertainty-aware Grounded Action Transformation towards Sim-to-Real Transfer for Traffic Signal Con

Uncertainty-aware Grounded Action Transformation towards Sim-to-Real Transfer for Traffic Signal Con

时间:2024-12-23 17:10:58浏览次数:3  
标签:Real Control phi towards 策略 动作 修正 theta pi

根据这段伪代码(Algorithm 1)和描述提供的信息,以下是对动作选择流程的详细分析,以及如何解决策略 $ \pi_\theta $ 和逆向模型 $ h_{\phi-} $ 在动作生成和修正中的作用:


UGAT 算法的核心流程

  1. 预训练策略 $ \pi_\theta $(第1行)

    • 在虚拟环境 $ E_\text{sim} $ 中,用强化学习对策略 $ \pi_\theta $ 进行预训练,进行 $ M $ 次迭代。
    • $ \pi_\theta $ 的预训练确保其在仿真环境中具备初步的动作选择能力。
  2. 数据收集和模型更新(第3-7行)

    • 同时在仿真环境 $ E_\text{sim} $ 和真实环境 $ E_\text{real} $ 中运行策略 $ \pi_\theta $,生成状态转移数据 $ (s_t, a_t, s_{t+1}) $:
      • 仿真环境中的数据存储到 $ D_\text{sim} $。
      • 真实环境中的数据(可能是离线日志)存储到 $ D_\text{real} $。
    • 根据收集的数据,训练或更新前向模型 $ f_{\phi+} $ 和逆向模型 $ h_{\phi-} $。
  3. 动作修正(Action Grounding Step)(第12-19行)

    • 核心问题:如何确定执行的动作是策略 $ \pi_\theta $ 的输出,还是通过逆向模型修正的动作?
      • 根据描述,动作修正依赖于模型的不确定性 $ u_t $。
      • 如果 $ u_t \geq \alpha $,说明当前模型的预测不可靠,直接使用策略 $ \pi_\theta $ 的动作 $ a_t $。
      • 否则,使用逆向模型 $ h_{\phi-} $ 提供的修正动作 $ \hat{a}_t $。
  4. 策略更新(第20行)

    • 策略 $ \pi_\theta $ 使用仿真环境的交互数据,通过强化学习进一步优化。
  5. 不确定性调整(第23行)

    • 根据公式 (8),更新不确定性阈值 $ \alpha $,以适应下一轮的策略训练。

动作选择的具体流程分析

在这个算法中,动作选择的流程如下:

1. 初始动作选择:通过策略 $ \pi_\theta $

  • 第13行:
    • 策略 $ \pi_\theta $ 根据当前状态 $ s_t $ 输出动作 $ a_t \(: \)
      a_t = \pi_\theta(s_t)
      $

2. 动作修正:通过逆向模型 $ h_{\phi-} $

  • 计算修正动作和不确定性

    • 使用 $ g_\phi $,结合当前状态 $ s_t $ 和策略动作 $ a_t $,计算:
      • 修正动作 $ \hat{a}_t $。
      • 动作预测的不确定性 $ u_t $。
    • 根据 Equation (7),不确定性 $ u_t $ 表示当前预测的可靠性。
  • 不确定性检查(第15行):

    • 如果 $ u_t \geq \alpha $,说明模型预测不够可靠:
      • 丢弃修正动作 $ \hat{a}_t $,直接执行原始动作 $ a_t $。
    • 如果 $ u_t < \alpha $,说明修正动作 $ \hat{a}_t $ 是可信的:
      • 使用 $ \hat{a}_t $ 替代原始动作。

3. 动作在仿真环境中的执行

  • 无论是策略输出的动作 $ a_t $,还是修正后的动作 $ \hat{a}t $,最终都会被传递到仿真环境 $ E\text{sim} $,用于更新仿真状态 $ s_{t+1} $。

总结:伪代码和框架图的统一

通过详细分析,我们可以看出伪代码和框架图的关系实际上是协同的,而不是矛盾的:

  1. 策略 $ \pi_\theta $ 是主要的动作生成器

    • 在每一步中,策略 $ \pi_\theta $ 根据状态 $ s_t $ 首先生成动作 $ a_t $。
    • 这符合伪代码第13行的描述。
  2. 逆向模型 $ h_{\phi-} $ 是动作修正器

    • 通过 $ g_\phi $ 计算逆向模型修正动作 $ \hat{a}_t $ 和不确定性 $ u_t $。
    • 如果 $ u_t < \alpha $,修正后的动作 $ \hat{a}_t $ 被执行。
    • 如果 $ u_t \geq \alpha $,则直接执行策略的原始动作 $ a_t $。
    • 这对应框架图中 $ h_{\phi-} $ 的作用。
  3. 两者的最终执行关系

    • 在大多数情况下,策略 $ \pi_\theta $ 输出的动作 $ a_t $ 是主要执行的动作。
    • 逆向模型 $ h_{\phi-} $ 仅在动作需要修正时提供辅助。

算法的作用总结

  1. 策略 $ \pi_\theta $

    • 是主要的动作生成器,直接输出动作 $ a_t $。
  2. 逆向模型 $ h_{\phi-} $

    • 提供动作修正能力,避免策略 $ \pi_\theta $ 在不确定情况下的错误动作执行。
  3. 模型的不确定性量化 $ u_t $

    • 决定是否接受修正动作 $ \hat{a}_t $。
    • $ u_t $ 是连接策略和逆向模型的核心参数。

希望这个解释清晰地消除了你的疑惑!如果还有其他细节需要讨论,可以进一步展开!

标签:Real,Control,phi,towards,策略,动作,修正,theta,pi
From: https://www.cnblogs.com/GraphL/p/18624519

相关文章

  • ContentControl的精彩使用
    先看效果在WPF中ContentControl的Content属性是object,预示着它可以绑定任何类型,不管是View还是ViewModel都可以。我们先看正确的代码<Window.Resources><DataTemplateDataType="{x:TypeviewModel:UniformGridViewModel}"><view:UniformGridView/>......
  • 宠物管理系统(3):Controller类
        模仿三层架构中的Controller编写的控制器(但是这并非是真的),用于处理不同的情境。    MainController,用于控制整个主程序:packagecom.wzb.controller;importcom.wzb.utils.menu.MainMenu;importcom.wzb.utils.wait.Wait;importjava.util.Scanner;......
  • Ubuntu下Intel RealSense Depth Camera D455( 景深相机)的ROS2 wrapper 安装、RViz2的使
     IntelRealSenseDepthCameraD455(景深相机)的ROS2驱动安装找到官方开发者中心的文档https://dev.intelrealsense.com/docs/docs-get-started?_ga=2.22118398.41936604.1734785296-801471888.1733994584 先别着急安装文档的指引就先安装好对应的SDK,我在这里走了弯路,这里的......
  • Springmvc进一步学习(springmvc-mybatis):跳转不经过视图解析器、controller如何保存数
    上一章的springmvc回顾内容:1.springmvc框架:主要作用:处理客户的请求,并处理数据,以及响应客户。2.springmvc搭建流程:  [1]引入springmvc依赖。spring-webmvc  [2]编写springmvc配置文件。   1.包扫描<context:component-scanbasepackage=""/>   ......
  • Spring Boot教程之三十五: 创建一个简单的 RestController
    在SpringBoot中创建一个简单的RestControllerSpringBoot建立在Spring之上,包含Spring的所有功能。由于其快速的生产就绪环境,使开发人员能够直接专注于逻辑,而不必费力配置和设置,因此如今它正成为开发人员的最爱。SpringBoot是一个基于微服务的框架,在其中创建生产就......
  • 集智书童 | 从RAW到RGB的完美转换:RealCamNet 端到端摄像头成像 Pipeline 提升成像性能
    本文来源公众号“集智书童”,仅用于学术分享,侵权删,干货满满。原文链接:从RAW到RGB的完美转换:RealCamNet端到端摄像头成像Pipeline提升成像性能!近年来,神经摄像头成像管线的最新进展表明取得了显著的进步。然而,实际成像Pipeline仍然面临包括系统组件缺乏联合优化、计算......
  • CVPR-23 Towards Universal Fake Image Detectors that Generalize Across Generative
    论文标题:TowardsUniversalFakeImageDetectorsthatGeneralizeAcrossGenerativeModels论文链接:https://arxiv.org/abs/2302.10174 01摘要翻译随着生成模型的快速发展,人们对通用假图像检测器的需求日益增长。在这项工作中,我们首先展示了现有的模式,即训练一个深......
  • OpenAI Realtime API 升级,集成 WebRTC 且降价 60%;豆包发布视觉理解模型,实时语音模型也
     开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE(Real-TimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个......
  • Prompt to Transfer: Sim-to-Real Transfer for Traffic Signal Control with Prompt
    这段内容主要讨论了GroundedActionTransformation(GAT)框架的逻辑和目标。GAT是一种用于强化学习中仿真环境和真实环境动力学(transitiondynamics)对齐的方法。以下是详细解读:整体背景与问题挑战:仿真环境$E_{sim}$和真实环境$E_{real}$的动力学$P$存在差......
  • RealVNC旧版安装包及组策略模板下载方法
    msi安装包下载v6.2版本下载链接如下:https://downloads.realvnc.com/download/file/vnc.files/VNC-Server-6.2.0-Windows-msi.zip如需下载其他版本请替换下载链接中的VNC-Server-6.2.0-Windows为VNC-Server-x.x.x-Windows例如6.8.0版本:https://downloads.realvnc.com/downlo......