基于matlab的强化学习QLearning路径规划性能仿真

时间：2022-12-15 15:26:47浏览次数：42

标签：仿真 QLearning driver actions Choice a2 matlab Itertion NNPolicy

算法概述

假设我们的行为准则已经学习好了, 现在我们处于状态s1, 我在写作业, 我有两个行为 a1, a2, 分别是看电视和写作业, 根据我的经验, 在这种 s1 状态下, a2 写作业带来的潜在奖励要比 a1 看电视高, 这里的潜在奖励我们可以用一个有关于 s 和 a 的 Q 表格代替, 在我的记忆Q表格中, Q(s1, a1)=-2 要小于 Q(s1, a2)=1, 所以我们判断要选择 a2 作为下一个行为. 现在我们的状态更新成 s2 , 我们还是有两个同样的选择, 重复上面的过程, 在行为准则Q 表中寻找 Q(s2, a1) Q(s2, a2) 的值, 并比较他们的大小, 选取较大的一个. 接着根据 a2 我们到达 s3 并在此重复上面的决策过程. Q learning 的方法也就是这样决策的. 看完决策, 我看在来研究一下这张行为准则 Q 表是通过什么样的方式更改, 提升的.

Q-Learning它是强化学习中的一种 values-based 算法，是以QTable表格形式体现，在学习中遇到的任何操作存入QTable中，根据之前的学习选择当前最优操作，也可以根据设置的e_greedy机率随机选择。

Q-Learning的QTable标签更新公式：

Q-Learning的计算步骤:

1.判断在当前位置可以有几种操作；

2.根据当前位置允许的操作选择一个操作；

3.根据选择的操作进行奖赏；

4.修改当前行为的本次操作权重；

2.仿真效果预览

matlab2022a仿真测试如下：

3.核心MATLAB代码预览

NNPolicy=zeros(prod([driver_actions Xscale Yscale]),1); 
for i=1:pathtimes
    i
    Positions = stpt;   
    drivers   = 0;   %开车
    E         = zeros(prod([driver_actions Xscale Yscale]),1);
 
    for j=1:maxiter
        %计算训练驾驶策略
        if j>=2   
           Choice      = ndi2lin([1 Positions(1) Positions(2)],[driver_actions Xscale Yscale]);
           Choice2     = ndi2lin([drivers Prestate(1) Prestate(2)],[driver_actions Xscale Yscale]);
           delta       = feedback + cb*max(NNPolicy(Choice:Choice+driver_actions-1))-NNPolicy(Choice2);
            E(Choice2) = 1;
            NNPolicy   = NNPolicy + ca*delta*E;
            E          = cb*lambda*E*~exploring;
        end
        %选择动作
        Choice  = ndi2lin([1 Positions(1) Positions(2)],[driver_actions Xscale Yscale]); 
        Choice  = [Choice:Choice+driver_actions-1];                              
        tmps    = find(NNPolicy(Choice) == max(NNPolicy(Choice)));   
        %是否转向        
        drivers = tmps(ceil(rand * length(tmps)));   
        %探索策略
        if rand<LR
           drivers=floor(rand*driver_actions)+1;    
           exploring = 1;
        else 
           exploring = 0;
        end
        LR=LR/pathtimes;
        
        Prestate=Positions;
        [Positions,feedback] = nomancar(Positions,drivers,driver_direction,map_route,Xscale,Yscale);
        if edpt(1)==Positions(1) & edpt(2)==Positions(2)
           break
        end  
    end
 
    Itertion_times(k)=j;
    if k>32
       Error(k)=mean(Itertion_times(length(Itertion_times)-32+1:length(Itertion_times))); 
    else
       Error(k)=mean(Itertion_times(1:length(Itertion_times))); 
    end
    k=k+1;
end
A_005

标签：仿真,QLearning,driver,actions,Choice,a2,matlab,Itertion,NNPolicy
From： https://www.cnblogs.com/51matlab/p/16985081.html

m基于matlab的TDSCDMA系统性能仿真
1.算法概述 TD-SCDMA的中文含义为时分复用同步码分多址接入，是由中国第一次提出、在无线传输技术(RTT)的基础上完成并已正式成为被ITU接纳的国际移动通信标......
基于分水岭算法的图像分割-Matlab版本
✅作者简介：热爱科研的算法开发者，Python、Matlab项目可交流、沟通、学习。......
Matlab短时傅里叶变换和小波变换的时频分析
✅作者简介：热爱科研的算法开发者，Python、Matlab项目可交流、沟通、学习。......
【DBN分类】基于哈里斯鹰算法优化深度置信网络HHO-DBN实现数据分类附matlab代码
OverridetheentrypointofanimageIntroducedinGitLabandGitLabRunner9.4.Readmoreaboutthe extendedconfigurationoptions.Beforeexplainingtheav......
m基于GA遗传优化的生产工艺设备布置优化matlab仿真
1.算法概述在设备布置的问题上，本文将作业车间设备布置这个多目标优化问题看成是包含布局面积，物流成本和生产工艺的连续优化的多行设备布置问题，使之更具有实际意义，在标准遗......
基于GRNN网络和小波变换的ECG信号睡眠监测matlab仿真
目录一、理论基础二、核心程序三、仿真测试结果作者ID：fpga和matlab擅长技术：1.无线基带,无线图传,编解码2.机器视觉,图像处理,三维重建3.人工智......
仿真环境设置（一）- windows10， python 3.8
1安装miniconda参考网上材料，打开Miniconda官网，点击对应系统版本的安装器，然后安装即可。安装过程中推荐：为所有人/只为我：只为我；将conda添加到PATH中，是/否：是。（虽然不......
【matlab基础】使用simulink同步CAN数据
前言最近分析CAN报文数据，不同CAN通道的数据时间和size不一致，使用matlab中的simulink工具实现不同时间戳周期数据的对齐和同步。平常用得少，担心自己忘记了用的时候麻烦别人......
【matlab工具箱使用】matlab工具箱标定相机
前言印象中之前使用python和matlab都做过相机标定工作，只是没有记录，最近使用matlab工具箱记录下操作步骤。操作步骤1.打印一张棋盘格，把它贴在一个平面上，作为标定物，同时......
【DBN回归预测】基于麻雀算法优化深度置信网络SSA-DBN实现数据回归多输出预测附matlab
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，matlab项目合作可私信。......

基于matlab的强化学习QLearning路径规划性能仿真

相关文章

赞助商

阅读排行