首页 > 其他分享 >强化学习理论-第3课-贝尔曼最优公式

强化学习理论-第3课-贝尔曼最优公式

时间:2024-11-12 15:31:19浏览次数:1  
标签:策略 公式 贝尔曼 theorem 最优 pi

1. 贝尔曼最优公式:

1.1 定义:

第2课介绍了贝尔曼公式,里面的\(\pi (a|s)\)策略是固定的,这里我们想求得一个最优的策略,使得state value最好

1.2 matrix-vector form:

2. 求解贝尔曼公式:


公式中,v是一个未知量,\(\pi\)也是要求解的最优策略。

假设a有5个action,

2.1 Contraction mapping theorem:


example:

theorem:

2.2 应用这个定理求解:



运用定理知道,一定存在一个解,并且这个解是唯一的,而且这个解可以通过迭代的方式进行。

标签:策略,公式,贝尔曼,theorem,最优,pi
From: https://www.cnblogs.com/penuel/p/18542001

相关文章

  • 博客搭建之路:next主题数学公式问题
    next主题数学公式问题我写的都是一些编程相关的文章,有些文章里是存在数学公式的,我在Typora软件中写的时候显示的是对的,但是hexo将markdown转为html后在页面上就没有数学公式的格式了。查找next配置发现有一个渲染数学公式的配置math:#Default(true)willloadmathjax/k......
  • RC滤波器截止频率:【公式推导】
    目录1:RC滤波器2:截止频率3:截止频率公式推导电子领域的滤波器,可以“过滤掉”我们不需要的某个频率的波形。按内部是否有电源和有源器件,可以分为:有源滤波器:一般由集成运放和RC网络组成,由电源向集成运放提供能量。除了滤除波形以外,还能够放大特定频率的波形。无源滤波器:一般由电......
  • 2024年最优秀的10款项目管理工具,项目经理必看!
    在2024年,随着企业的数字化转型,项目管理工具变得越来越多样化,涵盖了从敏捷开发、团队协作到复杂企业项目管理等各类需求。以下是10款值得项目经理关注的优秀项目管理工具,它们涵盖了不同规模和需求的团队,帮助提升团队效率、项目透明度及交付质量。1.JiraJira是一款强大的项目管......
  • 含 Latex 公式的矢量绘图工具
    InkscapeInkscape安装TexText扩展,使得Inkscape在制图过程中可以插入LaTeX公式。TexText扩展安装教程:https://textext.github.io/textext/install/windows.html以上两点是按照TexText扩展成功的必备条件,第一点在安装Inkscape1.4时必须勾选红框部分,默认安装......
  • 【碧蓝航线】基于伤害公式的舰炮理论分析与排名
    前言不要被数据迷惑双眼,影响胜利的还有许多东西。——Warspite 本排名基于属性数据,仅供大体参考,战场细节我无法左右。若考虑过多细节则无法保证量化计算,非量化计算之时,若凭感觉给出定性结论则失去测评意义。本UP初来WIKI,无心带节奏,还望诸位大佬无需带有多余情绪,能够以平常心......
  • 轨迹联邦用到的具体公式 + 轨迹模块的设计
    轨迹数据+roadnetwork数据在这个LightTR框架中,输入的轨迹数据和路网数据通过以下几个模块进行计算和处理:1.局部轨迹预处理(LocalTrajectoryPreprocessing)首先,对输入的原始轨迹数据进行地图匹配(MapMatching)。地图匹配会将GPS记录的轨迹点投影到道路网络中的具体道路片......
  • Open3D (C++) 旋转矩阵转欧拉角公式推导及过程实现
    目录一、概述1.1原理1.2实现步骤1.3应用场景1.4注意事项二、关键函数2.1头文件2.2主要函数三、完整代码三、结果展示一、概述  将旋转矩阵转换为欧拉角是逆向理解三维对象姿态的一种方法。旋转矩阵是一个3x3的正交矩阵,它描述了在三维空......
  • 六、MyBatis-Plus高级用法(1):最优化持久层开发
    一、MyBatis-Plus快速入门1.1简介课程版本:3.5.3.1MyBatis-Plus......
  • 强化学习理论-第二课-贝尔曼公式
    1.return和贝尔曼上图说明从不同状态出发得到的return,依赖于从其他状态出发的returnv是return,将第一张图写成矩阵的形式,r代表immediatereward,是已知的,矩阵P是策略加上statetransition,也是已知的,求解v这个公式实际上就是贝尔曼公式在\(S_t\)采用什么样的动作\(A_t\),是有......
  • 牛顿法特殊形式——开方公式与二分逼近开方的
    数值分析-开方公式//开方公式#include<bits/stdc++.h>usingnamespacestd;intmain(){doublec,x0,jingdu;printf("请输入被开方数c:");scanf("%lf",&c);printf("请输入初值x0:");scanf("%lf",&x0);......