使用表格型强化学习算法解决寻路问题的两种建模方式

时间：2024-09-29 10:14:08浏览次数：6

寻路问题示意图：（只有目标点形式的示意图）

寻路问题示意图：（带有目标点和起始点形式的示意图，红色位置为起始点，黑色位置为目标点）

解决强化问题首先需要建模，只有把目标问题建立为强化学习模型后才能使用强化学习算法进行解决；在这一过程中我们在建立强化学习模型（指定环境，状态迁移函数，折扣系数）的同时还需要指定奖励模式，这里根据奖励函数建立的两种不同方法给出两种建模方式。

第一种，最为常见的方式，即每走一步则设置回报奖励值为 -1，算法的优化目标就是如何获得最大奖励的方式获得到目标点；这种方式我们可以从起始点开始进行强化学习计算，也可以从目标点开始进行强化学习计算，但是通常习惯来说都是从起始点开始进行计算的，也就是从起始点开始进行状态值V(state)的值更新的。

重点：

从起始点开始计算，每一步奖励值为 -1，到达目标点时奖励值为100。

第二种，设置每走一步的回报奖励值为0，到达目标点后的回报值为1或者100等较大的奖励值；该种建模方法则应该从目标点开始进行计算，即从目标点开始进行状态值V(state)的值更新。

重点：

每一步奖励值为0，从目标点开始反向计算，由于到达目标点时的奖励为100，因此整个计算过程中目标点的V(target_state)=100是保持固定不变的。

分析：

第二种计算方法（建模方法）可以应对多种起始点的情况，因为是从目标点开始计算的，因此最后会获得所有状态的V值，这样不论起始点在在那一个位置都可以直接获得。

PS:

第二种建模的方法十分的少见，是本人在阅读分层强化学习算法options论文的时候发现其中大量采用第二种方式进行建模，于是便有了本篇blog。

标签：表格,起始,值为,建模,目标,奖励,强化,寻路
From： https://www.cnblogs.com/xyz/p/18438997

搜索：如何用 A*搜索算法实现游戏中的寻路功能？
搜索：如何用A*搜索算法实现游戏中的寻路功能？在游戏开发中，寻路功能是一个非常重要的部分。它可以让游戏中的角色自动找到从一个位置到另一个位置的最佳路径。A搜索算法是一种常用的寻路算法，它可以在复杂的地图环境中快速找到最短路径。本文将详细介绍如何用A搜索算法实现游......
精通推荐算法31：行为序列建模之ETA — 基于SimHash实现检索索引在线化
1 行为序列建模总体架构2SIM模型的不足和为什么需要ETA模型SIM实现了长周期行为序列的在线建模，其GSU检索单元居功至伟。但不论Hard-search还是Soft-search，都存在如下不足：GSU检索的目标与主模型不一致。Hard-search通过类目属性来筛选历史行为，但不同类目不代表相关度低，比......
电线粗细流过电流对比表格(国内国外)
前言全局说明一、说明二、国内线标准三、国外线标准四、4.1文件名：4.2文件名：免责声明：本号所涉及内容仅供安全研究与教学使用，如出现其他风险，后果自负。参考、来源：https://www.bilibili.com/video/BV14i4y1D7yB（09:30）......
2024 年全国大学生新质生产力大赛—数学建模赛项题目 B：金融违规交易的大数据分析问题
针对问题三，我们可以采取以下步骤进行聚类分析，并统计不同国家的涉案人员数量和交易金额总数。以下是具体的分析思路和方法：1.数据预处理清洗数据：确保数据中没有缺失值，并将需要的字段转换为合适的数据类型。选择聚类特征：选择与洗钱风险评分相关的指标作为聚类特征，例如交易金......
ChatGPT在大气科学领域建模、数据分析、可视化与资源评估的应用
如何结合最新AI模型与Python技术处理和分析气候数据。使用GPT处理数据、生成论文摘要、文献综述、技术方法分析等案例。特别关注将GPT与Python结合应用于遥感降水数据处理、ERA5大气再分析数据的统计分析、干旱监测及风能和太阳能资源评估等大气科学关键场景。1、掌握AI工具应......
气象水文耦合模WRF-Hydro建模——建议收藏！
原文链接：气象水文耦合模WRF-Hydro建模https://mp.weixin.qq.com/s?__biz=MzUzNTczMDMxMg==&mid=2247619667&idx=5&sn=d3745f6154c1d7f6e941c0618b77e6f8&chksm=fa8255b4cdf5dca216ba8f3acea073f88438ab4e93b4320f6c71a48259e43f235cb1ccdb7dda&token=872080900&la......
利用表格布局和表单编写简单代码
利用表格布局编写程序设计“登录界面”代码如下：<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><title>登录界面</title></head><body><form><fieldsetstyle="width:300px;......
表格布局与表单交互
3.1表格概述表格是网页中的一个重要元素，可以包含文字和图像。表格可以使网页结构紧凑整齐，内容一目了然。3.1.1表格的结构表格是由行和列组成的，每行又有一个或者多个单元格组成，用于放置数据。表格中的单元格是行与列的交叉部分，是组成表格的最基本单元。单元格内容称为数据......
表格布局与表单交互（第三次作业）
（题一）效果图如下：代码如下：<!DOCTYPEhtml><html> <head> <metacharset="utf-8"> <title>计算机布局</title> </head> <body> <tablewidth=300pxborder="2px"align="center"bordercolor=......
第三章表格布局与表单交互
3.1表格概述表格是网页中的一个重要容器，可包含文字和图像，表格使网页结构紧凑整齐，使网页内容的显示一目了然3.1.1表格的结构表格是由行和列组成的二维表，而每行又由一个或多个单元格组成，用于放置数据或其他内容3.1.2表格的基本语法标记形式说明<table> 表格标......

使用表格型强化学习算法解决寻路问题的两种建模方式

相关文章

赞助商

阅读排行