首页 > 其他分享 >A TL Strategy for Improving the Data Efficiency of DRL Control

A TL Strategy for Improving the Data Efficiency of DRL Control

时间:2024-03-29 17:57:06浏览次数:14  
标签:Control 训练 智能 Strategy 学习 Efficiency TL RL 方法

Paper1

A Transfer Learning Strategy for Improving the Data Efficiency of Deep Reinforcement Learning Control in Smart Buildings: https://ieeexplore.ieee.org/document/10454120

Motivation

  • RL算法需要大量数据用于学习,我们需要提高训练和数据利用的效率。
  • TL方法是一种利用从源任务中学习到的知识来使目标任务受益的方法。(举一反三)

Challenge

迄今为止,TL方法主要用于监督学习中,而监督学习中的数据是静态的,强化学习中的数据通常与时间相关,取决于智能体先前选择的动作。TL方法在强化学习中的应用更具挑战性,因为问题被表述为马尔可夫决策过程,这是一个随机过程。

Method

采用了一个名为Yarnell Station House的研究房屋的模型来训练和测试所提出的方法。

  1. 通过在源模型的参数中添加随机噪声,建模生成10座不同的建筑物,又生成了10个模型。
  2. 使用DQN算法为每个模型训练一个单独的RL智能体。
  3. 从10个预训练的RL智能体到源模型的RL智能体进行迁移学习。
  4. 性能评估。

Algorithm

DQN

img

Student Distillation

在RL任务背景下,Student Distillation方法可以描述为训练一个智能体(即学生)模仿多个智能体(即教师)的行为。该方法的目标是将学到的策略从教师转移到学生身上。这种迁移使学生从许多更好的策略中学习。——简而言之,学生的策略\(\pi\)是通过向这些老师学习从而提炼出来的。

Evaluation

在HVAC控制任务中测试了所提出的TL方法,并将TL方法与三个传统控制器进行了比较。结果表明,所提出的TL方法可以达到与离线部署相当的累积奖励,且性能明显优于其他两种控制器。

Convergence of the DQN Training

img

Policy Distillation

img

img

Conclusion

该文章提出了一种迁移学习方法,通过减少数据需求来提高RL算法的效率。结果表明,提出的迁移学习方法是一种很有前途的方法,可以利用类似的强化学习任务的信息,从而强化学习训练中的数据需求。

标签:Control,训练,智能,Strategy,学习,Efficiency,TL,RL,方法
From: https://www.cnblogs.com/kirin-dev/p/18104099/Paper-1

相关文章

  • The following export control compliance notifications have been delivered to cry
    https://www.linuxfoundation.org/legal/export Thefollowingexportcontrolcompliancenotificationshavebeendeliveredtocrypt@[email protected]. ========================================......
  • 每日面经分享(SpringBoot part4:Controller层)
    SpringBootController层的作用a.请求映射:Controller层使用注解(如@RequestMapping、@GetMapping、@PostMapping等)将HTTP请求映射到相应的方法上。这些方法根据URL路径、请求方法、请求参数等来决定要执行的操作。b.参数解析:Controller层负责解析HTTP请求中的参数(如路径......
  • WPF解决当ScrollViewer中嵌套ItemsControl时,不能使用鼠标来滚动翻页
    1.在DataGrid中添加PreviewMouseWheel事件,并将事件的Handled属性设置为false,以便将滚动事件传递给ScrollViewer。示例代码如下:<DataGridPreviewMouseWheel="DataGrid_PreviewMouseWheel"><!--DataGrid的其他设置--></DataGrid>privatevoidDataGrid_PreviewMouseWh......
  • devexpress schedulerControl Gantt View 使用
    usingSystem;usingSystem.Collections.Generic;usingSystem.ComponentModel;usingSystem.Data;usingSystem.Drawing;usingSystem.Text;usingSystem.Linq;usingSystem.Windows.Forms;usingDevExpress.XtraEditors;usingF.Studio.DevExpressUI;usingDevExp......
  • http协议中缓存Cache-Control详解
    Cache-Control是一个HTTP/1.1协议中的头部字段,用于指定请求和响应遵循的缓存机制。通过这个头部,服务器可以告诉客户端响应可以被缓存多长时间,以及在什么条件下可以被缓存和重新使用。以下是一些常见的Cache-Control指令:基本指令no-cache表示响应不应该被缓存,除非得到......
  • FUSB302BMPX 可编程USB芯片控制器 接口集成电路 302B Type-C Control IC with PD
    FUSB302BMPX是一种可编程的USBType-C控制器,由安森美半导体公司生产。它支撑USBType-C检测,包含衔接和方向,并集成了USBBMC功率输送协议的物理层,可完成高达100W的电源和角色交换。该控制器适用于希望完成DRP/SRC/SNKUSBType-C衔接器的系统规划人员。此外,FUSB302BMPX支撑USB3......
  • nestJs中 Guards ,Interceptors ,Pipes ,Controller ,Filters的执行顺序
    执行顺序:Guards(守卫):Guards是最先执行的中间件,用于确定是否允许请求继续处理。Guards在请求被路由到控制器之前执行,通常用于身份验证、角色检查或权限验证。如果Guards返回一个布尔值 false 或者抛出一个异常,请求处理流程将终止,不会执行后续的Pipes、Interceptors或控......
  • Three.js 中的 OrbitControls 是一个用于控制相机围绕目标旋转以及缩放、平移等操作的
    demo案例Three.js中的OrbitControls是一个用于控制相机围绕目标旋转以及缩放、平移等操作的控制器。下面是它的详细讲解:构造函数:OrbitControls(object:Camera,domElement?:HTMLElement)object:THREE.Camera实例,控制器将围绕此对象进行操作,例如相机。domElement......
  • dxGaugeControl指针仪表盘
    界面放上dxGaugeControl控件,点右键添加比例->圆选择一个自己喜欢的样子,我这只是为了要指针 打开视图选项AngleStart和AngleEnd主要是调整0-100位置的MinValue,MaxValue是刻度最大、最小值MinorTickCount设置次刻度数量ShowBackground是否显示背景图片SetShowFirstTick、......
  • NXP ECSPI controller简介
    spi协议可参考:https://www.cnblogs.com/lethe1203/p/18083528 ECSPI(EnhancedConfigurableSerialPeripheralInterface)是由NXPSemiconductors(原飞利浦半导体部门)开发的,imx6ull上一共有四组spi接口,每组寄存器都是一样的,都是以第一组为例。 典型的SPIBURST传输图: ECSP......