首页 > 其他分享 >Prompt to Transfer: Sim-to-Real Transfer for Traffic Signal Control with Prompt Learning

Prompt to Transfer: Sim-to-Real Transfer for Traffic Signal Control with Prompt Learning

时间:2024-12-18 18:23:07浏览次数:3  
标签:Real 仿真 phi Prompt 真实 Transfer 动力学 环境 hat

这段内容主要讨论了Grounded Action Transformation (GAT) 框架的逻辑和目标。GAT 是一种用于强化学习中 仿真环境真实环境 动力学(transition dynamics)对齐的方法。以下是详细解读:


整体背景与问题

  • 挑战:仿真环境 $ E_{sim} $ 和真实环境 $ E_{real} $ 的动力学 $ P $ 存在差异,导致在仿真环境中学到的策略 $ \pi_\theta $ 在真实环境中表现不佳,出现性能差距。
  • 目标:找到一种方法使仿真环境 $ E_{sim} $ 的动力学 $ P_\phi $ 尽可能接近真实环境 $ E_{real} $ 的动力学 $ P^* $,从而减少性能差距。

关键概念

  1. 动力学差异最小化:
    • 目标是通过参数 $ \phi $ 来最小化仿真动力学 $ P_\phi $ 和真实动力学 $ P^* $ 之间的差异。
    • 目标函数:
      \( \phi^* = \arg \min_\phi \sum_{\tau^i \in D_{real}} \sum_{t=0}^{T-1} d(P^*(s_{t+1}^i | s_t^i, a_t^i), P_\phi(s_{t+1}^i | s_t^i, a_t^i)) \)
      • $ d(\cdot) $:衡量两个动力学之间差异的度量函数。
      • $ P^* $:真实环境的动力学。
      • $ P_\phi $:仿真环境通过参数 $ \phi $ 改造后的动力学。

GAT 框架的核心逻辑

GAT 框架的核心思想是通过一个 动作变换函数 $ g_\phi $(Grounded Action Transformation)将仿真环境中的状态-动作对调整,使其更接近真实环境的动力学 $ P^* $。

具体步骤如下:

  1. 动作变换函数:

    • GAT 使用一个动作变换函数 $ \hat{a}t = g\phi(s_t, a_t) $,参数化为两个模型:
      • 前向模型 $ f_\phi^+ $:预测下一状态 $ \hat{s}_{t+1} $。
      • 逆向模型 $ h_\phi^- $:基于预测的下一状态 $ \hat{s}_{t+1} $ 生成一个新的动作 $ \hat{a}_t $。
  2. 前向模型 $ f_\phi^+ $:

    • 作用:基于当前状态 $ s_t $ 和动作 $ a_t $,预测下一状态 $ \hat{s}_{t+1} $。
    • 训练数据:来自真实环境 $ E_{real} $。
    • 公式:
      \( \hat{s}_{t+1} = f_\phi^+(s_t, a_t) \)
  3. 逆向模型 $ h_\phi^- $:

    • 作用:基于预测的下一状态 $ \hat{s}_{t+1} $ 和当前状态 $ s_t $,预测一个 grounded 动作 $ \hat{a}_t $。
    • 训练数据:来自仿真环境 $ E_{sim} $。
    • 公式:
      \( \hat{a}_t = h_\phi^-(\hat{s}_{t+1}, s_t) \)
  4. 动态校正:

    • $ \hat{a}_t $ 是经过 GAT 校正后的动作。
    • 仿真环境会根据校正后的动作 $ \hat{a}t $ 更新状态,使得仿真环境的下一状态 $ s $ 更接近真实环境中的 $ s_{t+1}^* $。

目标与优势

通过以上步骤,GAT 框架能够:

  1. 缩小仿真与真实环境的动力学差异

    • 通过学习参数 $ \phi $,使得仿真环境的动力学 $ P_\phi $ 更接近真实动力学 $ P^* $。
  2. 减少策略迁移的性能差距

    • 在仿真环境 $ E_{sim} $ 中学到的策略 $ \pi_\theta $ 会在真实环境 $ E_{real} $ 中表现更好,因为仿真动力学已经与真实动力学对齐。

总结逻辑

  1. 仿真环境和真实环境存在动力学差异。
  2. GAT 框架通过参数化的动作变换函数 $ g_\phi $ 调整动作 $ a_t $,使仿真环境的下一状态 $ s_{t+1} $ 更接近真实环境的下一状态 $ s_{t+1}^* $。
  3. GAT 使用 前向模型逆向模型 结合训练,以最小化仿真和真实动力学的差异。
  4. 最终,使在仿真环境中学到的策略 $ \pi_\theta $ 更容易迁移到真实环境,性能差距更小。

关键结果

\( \text{GAT 学到的仿真动力学 } P_\phi \approx \text{真实动力学 } P^* \)
从而提高了策略在真实环境中的表现。

标签:Real,仿真,phi,Prompt,真实,Transfer,动力学,环境,hat
From: https://www.cnblogs.com/GraphL/p/18615636

相关文章

  • RealVNC旧版安装包及组策略模板下载方法
    msi安装包下载v6.2版本下载链接如下:https://downloads.realvnc.com/download/file/vnc.files/VNC-Server-6.2.0-Windows-msi.zip如需下载其他版本请替换下载链接中的VNC-Server-6.2.0-Windows为VNC-Server-x.x.x-Windows例如6.8.0版本:https://downloads.realvnc.com/downlo......
  • 打靶记录21——Cereal
    靶机:https://download.vulnhub.com/cereal/Cereal.ova难度:高(最接近真实场景)目标:取得root权限+2Flag攻击方法:主机发现端口扫描信息收集路径枚举密码爆破域名解析匿名FTP子域名爆破源码审计反序列化漏洞进程监视本地提权主机发现sudoarp-scan-l......
  • CVPR离群值检测论文ID-like Prompt Learning for Few-Shot Out-of-Distribution Detec
    标题期刊年份关键词项目地址ID-likePromptLearningforFew-ShotOut-of-DistributionDetectionCVPR2024OOD检测、Few-Shot学习、CLIP、ID-like样本项目地址概览今天我们来分享一篇来自CVPR2024的论文:ID-likePromptLearningforFew-ShotOut-of-Di......
  • 利用usb-cam包标定RealSense D435相机(未解决版)
    一、安装usb-cam包和标定数据包usb_cam包的主要作用是将USB摄像头的视频流转换为ROS可用的消息格式。sudoapt-getinstallros-melodic-usb-camcamera_calibration包是ROS中用于相机标定的工具包,主要用于校准相机的内参和外参。sudoapt-getinstallros-melodic......
  • An Active Inference Strategy for Prompting Reliable Responses from Large Languag
    本文是LLM系列文章,针对《AnActiveInferenceStrategyforPromptingReliableResponsesfromLargeLanguageModelsinMedicalPractice》的翻译。在医疗实践中促进大型语言模型做出可靠响应的主动推理策略摘要1引言2方式3方法4结果5讨论摘要人工......
  • 解密prompt系列44. RAG探索模式?深度思考模式?
    前一阵多步RAG的风吹入了工业界,kimi推出了探索版本,各应用都推出了深度搜索,You.COM更是早就有了Genius的多步模式。其实都是类似multi-hopRAG的实现。之前学术界在讨论multi-hopRAG的时候总是给一些基于历史知识类的问题,什么某年诺贝尔奖的获奖人在哪读的大学呀,给人一种错觉就是......
  • 【有啥问啥】大语言模型Prompt中的“System指令”:深入剖析与误区澄清
    大语言模型Prompt中的“System指令”:深入剖析与误区澄清引言在与大语言模型(LLM)交互时,“prompt”(提示符)这一概念已不再陌生。Prompt是引导模型生成特定类型文本的关键输入,决定了模型的输出方向与质量。然而,随着大语言模型的广泛应用,出现了一些关于“system指令”的误解,特......
  • 【Unity 爆炸、火焰和烟雾效果插件】UNI VFX: Realistic Explosions, Fire Smoke for
    UNIVFX:RealisticExplosions,Fire&SmokeforVisualEffectGraph是一款专为Unity的VisualEffectGraph(VFXGraph)系统设计的插件,旨在帮助开发者创建高度真实的爆炸、火焰和烟雾效果。这款插件通过强大的粒子系统和高效的图形处理技术,使开发者能够轻松实现复杂......
  • 古早的遗传算法碰到LLM->AutoDAN Generating Stealthy Jailbreak Prompts onAligned L
    师兄推给我的一篇ICLR,抽出时间阅读整理了附录前的内容......
  • ‌System Prompt VS User Prompt
    SystemPrompt(系统提示词)与UserPrompt(用户提示词)在定义、作用和特点上存在显著区别。‌定义‌SystemPrompt‌:系统提示词是指向AI提供的一组初始指令或背景信息,用于指导AI的行为方式和响应模式。它帮助设定AI的角色、语气、知识范围等,确保AI能够按照预期的方式与用户互动......