强化学习Chapter2——优化目标（1）

上节涉及强化学习基本思路以及利用数学方式表征强化学习，但对强化学习的目标并没有进行详尽的定义。本节的目标旨在介绍 algorithm-free 的优化目标，即本文将不涉及算法地详述强化学习的目标。

强化学习一般性目标

上文提到，强化学习的目标可以解释为：在一个 Trajectories \(\tau\) 中积累的 Reward 尽可能高，也即是 Return 尽可能高。为了表示这个目标，首先要表征 Trajectory，而后者的形式为：

\[(s_0, a_1, s_1, a_2,s_3,...) \]

为了保证结论的普适性，假设环境的迁移也是随机的，即在给定 \(s_t, a_t\) 后，迁移到 \(s_{t+1}\) 是一个概率行为，也就是说 \(s_{t+1}\) 是从一个分布中采样获得的。

\[P(s_{t+1}|s_t,a_t) \]

除此之外，\(a_t\) 实际上也是 \(s_t\) 的函数（这里依然假设策略是随机的），即

\[a_t \sim \pi(\cdot|s_t) \]

因此表征单步的状态迁移，实际上是如下形式：

\[P(s_{t+1}|s_t,a_t)\pi(a_t|s_t) \]

最后，任何轨迹都是从一个 \(s_0\) 出发的，而该初始状态是随机任取的，所以可以设置一个 start-state distribution \(\rho_0\) ：

\[s_0\sim\rho_0(\cdot) \]

在此基础上就能获取一个轨迹的表示了：

\[P(\tau|\pi)=\rho_0(s_0)\prod^{T-1}_{t=0} P(s_{t+1}|s_t,a_t)\pi(a_t|s_t) \]

若设对于轨迹 \(\tau\) 的回报 Return 为 \(R(\tau)\)，强化学习目标为 \(J\)，则有：

\[J(\pi)=\int_\tau P(\tau|\pi)R(\tau)=E_{\tau\sim\pi}[R(\tau)] \]

可以看出，这一切的缘由，都是策略 \(\pi\) ，因此强化学习的优化目标，就是获取使得 \(J\) 最大的 \(\pi\)：

\[\pi^*=\arg \max_\pi J(\pi) \]

右上角的星号表明他是最优的（optimal policy）。

标签：tau,Chapter2,目标,学习,强化,pi,优化
From： https://www.cnblogs.com/tsyhahaha/p/17549710.html

EasyCVR平台Ehome协议接入，设备管理中出现新增通道按钮的问题优化
EasyCVR可拓展性强、视频能力灵活、部署轻快，可支持的主流标准协议有GB28181、RTSP/Onvif、RTMP等，以及厂家私有协议与SDK接入，包括海康Ehome、海大宇等设备的SDK等，能对外分发RTSP、RTMP、FLV、HLS、WebRTC等格式的视频流。有用户反馈，通过海康Ehome接入的设备，在设备管理中出现了新......
SysMain 服务（也称为 Superfetch 或 Prefetch）是 Windows 操作系统中的一个关键组件之一
SysMain服务（也称为Superfetch或Prefetch）是Windows操作系统中的一个关键组件之一，用于优化系统性能和加速应用程序的启动时间。SysMain服务通过分析系统的使用模式，并预先加载常用的应用程序和文件到内存中，从而减少应用程序的启动时间和提高响应速度。SysMain服务的主要目标......
redis数据结构编码优化（1）
redis数据结构内部编码优化（1）Redis可以通过内部编码规则来节省空间。Redis为每种数据类型提供了两种内部编码方式。以散列类型为例，散列类型是通过散列表实现的，这样就可以实现o(1)时间复杂度的查找、赋值操作，然而当键中元素很少的时候，o(1)的操作并不会比o(n)有明显的性能提高，所以这......
说透MySQL：从数据结构到性能优化，附实际案例和面试题
typora-copy-images-to:imgmysql索引第一章MySQL性能(掌握)1分析-数据库查询效率低下我们进入公司进行项目开发往往关注的是业务需求和功能的实现，但是随着项目运行的时间增加，数据量也就增加了，这时会影响到我们数据库的查询性能。所以我们要提高操作数据库的性能，有如下两种方式：1.......
基于 NNCF 和 Optimum 面向 Intel CPU 对 Stable Diffusion 优化
基于隐空间的扩散模型(LatentDiffusionModel)，是解决文本到图片生成问题上的颠覆者。StableDiffusion是最著名的一例，广泛应用在商业和工业。StableDiffusion的想法简单且有效:从噪声向量开始，多次去噪，以使之在隐空间里逼近图片的表示。但是，这样的方法不可避免地增加了推理......
三维GIS渲染引擎盘点，以Cesium为核心的拓展优化
目前，以Cesium为核心的各类产品繁多，本文将挑选一些以Cesium为核心的软件案例，为大家进行介绍。1.CesiumJSCesiumJS相信凡是GIS行业相关人员都特别熟悉了，CesiumJS是一款开源的JavaScript库，用于创建高性能的地球可视化应用程序。它基于WebGL技术，可以在现代的Web浏览器中实现各种三......
GPT优化后效果
#......
凸优化3——一些重要的凸集
本节对应凌青老师5、6两课内容主要举例并证明了一些典型的凸集超平面、半空间凸优化修炼之路|超平面与半空间-知乎(zhihu.com)球和椭球，其中，在定义椭球时用到了对称正定矩阵这一概念，故在此补充特征值、奇异值、半正定、正定，以及其中关系特征值和特征向量-知乎(zhihu.co......
sharding-jdbc分库连接数优化
一.背景:配运平台组的快递订单履约中心(cp-eofc)及物流平台履约中心(jdl-uep-ofc)系统都使用了ShardingSphere生态的sharding-jdbc作为分库分表中间件,整个集群采用只分库不分表的设计,共16个MYSQL实例,每个实例有32个库,集群共512个库.当每增加一台客户端主机,一个MYSQl实例最......
优化工作流程：快速导出Figma源文件的实用技巧
因为Figma，sketch,xd都支持导入sketch格式,所以我们只要将文件格式转成sketch，就能自由的在不同软件间导入导出。现在就有一个网站可以帮助你快速简单的导入Figma、Sketch、XD等格式文件，，还可以导出Sketch文件满足跨工具协作，无缝衔接以往工作内容。而且更重要的是这个导入与导......

强化学习Chapter2——优化目标（1）

强化学习Chapter2——优化目标（1）

强化学习一般性目标

相关文章

赞助商

阅读排行