Paper1

A Transfer Learning Strategy for Improving the Data Efficiency of Deep Reinforcement Learning Control in Smart Buildings: https://ieeexplore.ieee.org/document/10454120

Motivation

RL算法需要大量数据用于学习，我们需要提高训练和数据利用的效率。
TL方法是一种利用从源任务中学习到的知识来使目标任务受益的方法。（举一反三）

Challenge

迄今为止，TL方法主要用于监督学习中，而监督学习中的数据是静态的，强化学习中的数据通常与时间相关，取决于智能体先前选择的动作。TL方法在强化学习中的应用更具挑战性，因为问题被表述为马尔可夫决策过程，这是一个随机过程。

Method

采用了一个名为Yarnell Station House的研究房屋的模型来训练和测试所提出的方法。

通过在源模型的参数中添加随机噪声，建模生成10座不同的建筑物，又生成了10个模型。
使用DQN算法为每个模型训练一个单独的RL智能体。
从10个预训练的RL智能体到源模型的RL智能体进行迁移学习。
性能评估。

Algorithm

DQN

Student Distillation

在RL任务背景下，Student Distillation方法可以描述为训练一个智能体（即学生）模仿多个智能体（即教师）的行为。该方法的目标是将学到的策略从教师转移到学生身上。这种迁移使学生从许多更好的策略中学习。——简而言之，学生的策略\(\pi\)是通过向这些老师学习从而提炼出来的。

Evaluation

在HVAC控制任务中测试了所提出的TL方法，并将TL方法与三个传统控制器进行了比较。结果表明，所提出的TL方法可以达到与离线部署相当的累积奖励，且性能明显优于其他两种控制器。

Convergence of the DQN Training

Policy Distillation

Conclusion

该文章提出了一种迁移学习方法，通过减少数据需求来提高RL算法的效率。结果表明，提出的迁移学习方法是一种很有前途的方法，可以利用类似的强化学习任务的信息，从而强化学习训练中的数据需求。

标签：Control,训练,智能,Strategy,学习,Efficiency,TL,RL,方法
From： https://www.cnblogs.com/kirin-dev/p/18104099/Paper-1

The following export control compliance notifications have been delivered to cry
https://www.linuxfoundation.org/legal/export Thefollowingexportcontrolcompliancenotificationshavebeendeliveredtocrypt@bis.doc.govandenc@nsa.govasofthedatessetforthbelow. ========================================......
每日面经分享（SpringBoot part4：Controller层）
SpringBootController层的作用a.请求映射：Controller层使用注解（如@RequestMapping、@GetMapping、@PostMapping等）将HTTP请求映射到相应的方法上。这些方法根据URL路径、请求方法、请求参数等来决定要执行的操作。b.参数解析：Controller层负责解析HTTP请求中的参数（如路径......
WPF解决当ScrollViewer中嵌套ItemsControl时，不能使用鼠标来滚动翻页
1.在DataGrid中添加PreviewMouseWheel事件，并将事件的Handled属性设置为false，以便将滚动事件传递给ScrollViewer。示例代码如下：<DataGridPreviewMouseWheel="DataGrid_PreviewMouseWheel"></DataGrid>privatevoidDataGrid_PreviewMouseWh......
devexpress schedulerControl Gantt View 使用
usingSystem;usingSystem.Collections.Generic;usingSystem.ComponentModel;usingSystem.Data;usingSystem.Drawing;usingSystem.Text;usingSystem.Linq;usingSystem.Windows.Forms;usingDevExpress.XtraEditors;usingF.Studio.DevExpressUI;usingDevExp......
http协议中缓存Cache-Control详解
Cache-Control是一个HTTP/1.1协议中的头部字段，用于指定请求和响应遵循的缓存机制。通过这个头部，服务器可以告诉客户端响应可以被缓存多长时间，以及在什么条件下可以被缓存和重新使用。以下是一些常见的Cache-Control指令：基本指令no-cache表示响应不应该被缓存，除非得到......
FUSB302BMPX 可编程USB芯片控制器接口集成电路 302B Type-C Control IC with PD
FUSB302BMPX是一种可编程的USBType-C控制器，由安森美半导体公司生产。它支撑USBType-C检测，包含衔接和方向，并集成了USBBMC功率输送协议的物理层，可完成高达100W的电源和角色交换。该控制器适用于希望完成DRP/SRC/SNKUSBType-C衔接器的系统规划人员。此外，FUSB302BMPX支撑USB3......
nestJs中 Guards ,Interceptors ,Pipes ,Controller ,Filters的执行顺序
执行顺序：Guards（守卫）:Guards是最先执行的中间件，用于确定是否允许请求继续处理。Guards在请求被路由到控制器之前执行，通常用于身份验证、角色检查或权限验证。如果Guards返回一个布尔值 false 或者抛出一个异常，请求处理流程将终止，不会执行后续的Pipes、Interceptors或控......
Three.js 中的 OrbitControls 是一个用于控制相机围绕目标旋转以及缩放、平移等操作的
demo案例Three.js中的OrbitControls是一个用于控制相机围绕目标旋转以及缩放、平移等操作的控制器。下面是它的详细讲解：构造函数:OrbitControls(object:Camera,domElement?:HTMLElement)object：THREE.Camera实例，控制器将围绕此对象进行操作，例如相机。domElement......
dxGaugeControl指针仪表盘
界面放上dxGaugeControl控件，点右键添加比例->圆选择一个自己喜欢的样子，我这只是为了要指针打开视图选项AngleStart和AngleEnd主要是调整0-100位置的MinValue，MaxValue是刻度最大、最小值MinorTickCount设置次刻度数量ShowBackground是否显示背景图片SetShowFirstTick、......
NXP ECSPI controller简介
spi协议可参考：https://www.cnblogs.com/lethe1203/p/18083528 ECSPI（EnhancedConfigurableSerialPeripheralInterface）是由NXPSemiconductors（原飞利浦半导体部门）开发的，imx6ull上一共有四组spi接口，每组寄存器都是一样的，都是以第一组为例。典型的SPIBURST传输图： ECSP......

A TL Strategy for Improving the Data Efficiency of DRL Control