首页 > 其他分享 >基于策略的深度强化学习

基于策略的深度强化学习

时间:2023-07-04 12:56:17浏览次数:49  
标签:状态 基于 策略 梯度 近似 神经网络 深度 强化 函数

 策略函数,输入为状态,输出动作a对应的概率。

 

 

 利用神经网络去近似一个概率函数

 softmax函数使概率加和等于1且都为正数。

 Qπ用来评价在状态s下作出动作a的好坏程度,与策略函数π有关。

 状态价值函数V,只与当前状态s有关

  将策略函数π替换为神经网络

 用梯度上升使策略函数提升

 策略梯度算法的推导

 俩种策略函数的等价形式

 

 

 

 分开求每个动作的f,然后加和。

 

利用蒙特卡洛来近似策略梯度。

 策略梯度上升算法步骤

 用观测法,玩完整局游戏,用观测到的ut代替价值函数Q。

 用神经网络来近似价值函数Q

 

 

 

 

 

 

 

 

 

 

 

 

标签:状态,基于,策略,梯度,近似,神经网络,深度,强化,函数
From: https://www.cnblogs.com/huzixin666/p/17520684.html

相关文章

  • 网络安全开发架构之基于规则引擎的开发架构
    原文合集地址如下,有需要的朋友可以关注本文地址合集地址规则引擎架构常见的表现形式规则引擎架构可以有多种不同的表现形式,以下是一些常见的表现形式:中心化规则引擎中心化规则引擎是指规则引擎的核心逻辑集中在一个中心服务器或平台上。该服务器负责规则的管理、执行和决策......
  • 实战项目:构建基于Spring Boot和Vue.js的金融项目分享
    学习SpringBoot和Vue.js结合的前后端分离项目可以按照以下步骤进行:掌握SpringBoot:学习SpringBoot的基本概念和核心特性,如自动配置、起步依赖、注解驱动等。了解Spring框架的基本知识,如IoC容器、AOP、MVC模式等。学习Vue.js:学习Vue.js的基本语法、指令和组件,理解Vue实例、数据绑......
  • 强化学习实践:Policy Gradient-Cart pole游戏展示
    摘要:智能体agent在环境environment中学习,根据环境的状态state(或观测到的observation),执行动作action,并根据环境的反馈reward(奖励)来指导更好的动作。本文分享自华为云社区《强化学习从基础到进阶-案例与实践[5.1]:PolicyGradient-Cartpole游戏展示》,作者:汀丶。强化学习......
  • m基于simulink的PID控制器,模糊PID控制器以及MPC控制器性能对比仿真
    1.算法仿真效果matlab2022a仿真结果如下:        从图仿真结果可知,PID控制器,其超调较大,且控制器进入收敛状态时间也最长,。对于模糊PID控制器,其超调小于PID控制器,且收敛速度也较快,因此其性能优于传统的PID控制器。对于MPC控制器,其超调最小,控制器进入稳定状态速度也最快,......
  • m基于MOEA算法的无线传感器网络最优部署matlab仿真
    1.算法仿真效果matlab2022a仿真结果如下:     2.算法涉及理论知识概要       无线传感器网络(WirelessSensorNetwork,WSN)是一种分布式传感器网络,由大量的无线传感器节点组成,它们可以自组织、自适应、自愈合,通过无线通信协同完成任务。WSN应用广泛,如环境监......
  • m基于MOEA算法的无线传感器网络最优部署matlab仿真
    1.算法仿真效果matlab2022a仿真结果如下:2.算法涉及理论知识概要无线传感器网络(WirelessSensorNetwork,WSN)是一种分布式传感器网络,由大量的无线传感器节点组成,它们可以自组织、自适应、自愈合,通过无线通信协同完成任务。WSN应用广泛,如环境监测、农业、医疗等领域。在WSN中,传感......
  • m基于matlab的无线自组网性能仿真,包括端到端时延,吞吐量,初入网时间,迟入网时间,网络
    1.算法仿真效果matlab2022a仿真结果如下:      2.算法涉及理论知识概要        无线自组网(WirelessAdHocNetwork,简称WANET)是一种无需基础设施支持的网络,它由一组移动的无线节点组成,这些节点可以自组织形成一个网络,实现数据的传输和共享。由于WANET是......
  • 基于逻辑回归天气预报之爬虫1
    项目:基于逻辑回归天气预报项目简单介绍数据来源:ETL(sqoop,Flume,datax,Cannal,Finkx),python爬虫(发送请求->响应请求->(HTML)->解析数据(Xpath,正则,bs4)->保存数据(文本文件,数据库)数据分析:Spark做数据清洗(数据仓库,数据中台,数据湖)数据可视化(BI):帆软(FineBl,FineReport,quickBl,DataV)数......
  • 基于差速驱动移动基座的三维变型机器人轨迹优化
    在执行任务时,服务机器人的功能结构变化可能会限制其自主导航能力,从而影响其行动力。本文的研究,旨在解决复杂三维环境中可变形机器人的轨迹规划问题,特别是应用最为广泛的基于差速驱动移动基座的移动机器人的轨迹规划。这种全局轨迹优化方法是将机器人整个身体的轨迹建模为一个多项......
  • 基于 Spring Cloud Function 的 Azure Function 开发
    Notice:本文章不包含AzureFunction环境配置等内容1.1前提Azure账户,且有可使用的订阅Azure支持的JDK(本教程适用于JDK1.8)IntelliJIDEA社区版或无限制版均可Maven3.5+最新的FunctionCoreTools1.2创建SpringCloudFunctionAzure工程在Github仓......