首页 > 其他分享 >强化学习(Monte Carlo learning)-Today6

强化学习(Monte Carlo learning)-Today6

时间:2024-07-05 23:26:16浏览次数:19  
标签:Today6 Monte MC iteration state policy 算法 learning Policy

Monte Carlo learning简称 MC,是model-free算法,也就是不基于模型的算法,Today5发布的value iteration and Policy iteration algorithm是model-based算法,是基于模型的算法,也就是说,没有模型的构建,需要数据的支撑,MC包括三个算法,分别是MC Basic 、MC Exploring Starts 和MC-\varepsilon Greedy这三个算法,下面依次来介绍。

①MC-based(效率低)

其实此算法和policy iteration很像,就是将policy iteration基于模型的部分换为基于数据的部分。

policy iteration可以在此博客查看:强化学习(Value iteration and Policy iteration Algorithms)-Today5-CSDN博客

MC-based也是从策略\pi _{0}开始,在第k次迭代下分为以下两个步骤:

(1)Policy evaluation:

一个关于走迷宫的例子:在初始位置出发,每一个位置就相当于state,走的方向相当于action,不同到达终点的路径在每个(state,action)有相应的reward,整个路径的reward之和是q_{\pi _{k}}(s,a),走每一个路径会得到每一个不同的q_{\pi _{k}}(s,a),进行多次试验走多次迷宫,得到q_{\pi _{k}}(s,a)的数据。

(2)Policy improvement

将得到的数据进行比较,找到最大的q_{\pi _{k}}(s,a),选出最大的q_{\pi _{k}}(s,a),即:

\pi _{k+1}(s)=argmax_{\pi}\sum _{a}\pi(a|s)q_{\pi_{k}}(s,a)

但是由于要进行多次试验,因此效率较低。

②MC Exploring Statrs(实现困难)

探索(s,a)也就是要从每一个state和action都要开始一遍,也就是假如有5个state和9个action,那么需要45个数据,以保证exploring每一个state和action。

下面介绍first-visit method 和every-visit method 的区别:

first-visit method:比如一个(s_{1},a_{1})为初始时多次出现,那么只采样第一次出现的数据。

every-visit method:(s_{1},a_{1})若多次出现,选择所有的(s_{1},a_{1})

因此,此算法使用first-visit method显然效率更高,也是分为两个步骤:

(1) Policy evaluation 

假设迷宫走向的一个策略为如图所示,从(s1,a1)刀(s2,a2)到(s3,a1)再到(s4,a1)等等,那么我们可以使用 generalized policy iteration倒着来计算,先计算(s4,a1)的grade,那么求解(s3,a1)只需要使用r+\gamma g便可以求解出(s3,a1)的grade,(g为从一个state 出发的return)依次递推算起来更加简便,如下:

g_{\pi _{k+1}}=r+\gamma g_{\pi _{k}}

dag//从一个state出发的所有路径的平均值。

(2)Policy improvment

\pi _{k+1}(s)=argmax_{\pi}\sum _{a}\pi(a|s)q_{\pi_{k}}(s,a)

MC \varepsilon -Greedy

此算法主要是使用了exploration and exploitation,也就是利用和探索,在其他两个算法中,我们都是使用了唯一policy,也就是只求出了一个最优策略,只使用了exploitation,而MC \varepsilon -Greedy则是将一个最优的策略的利用最大化,而其他策略也进行部分探索,其实在计算方面和其他两个一样,也是使用了Policy evaluation 和Policy improvment,只不过其他两个的

\sum _{a}\pi(a|s)等于1,而MC \varepsilon -Greedy:

\pi(a|s)=\begin{Bmatrix} 1-(|A(s)-1)\frac{\varepsilon }{\left | A(s) \right |}\\ \frac{\varepsilon }{|A(s)}\end{Bmatrix}

\varepsilon =0时,算法是greedy的,是more exploitation更多利用所采样的数据;

\varepsilon =1时,服从均匀分布,每个policy的概率相等,是more exploration,更多的探索。

MC \varepsilon -Greedy还具有一致性,当使用\varepsilon =0.1较小的\varepsilon时,和greedy的optimistic是相似的,但是由于\varepsilon -Greedy也采用了exploration,效果较好,因此使用MC \varepsilon -Greedy使,可以将\varepsilon从大到小进行尝试,可以获得较好策略。

标签:Today6,Monte,MC,iteration,state,policy,算法,learning,Policy
From: https://blog.csdn.net/m0_52094641/article/details/140216823

相关文章

  • 极限学习机(Extreme Learning Machine,ELM)及其Python和MATLAB实现
    极限学习机(ExtremeLearningMachine,ELM)是一种快速而有效的机器学习算法,最初由马洪亮等人于2006年提出。ELM是一种单隐层前馈神经网络,其背景源于对传统神经网络训练过程中反向传播算法的改进与优化。相比传统神经网络,ELM在网络训练速度上具有明显优势,同时在一些实际应用中取得......
  • 深度学习第一课 Neural Networks and Deep Learning
    NeuralNetworksandDeepLearningweek1深度学习概论1.1欢迎1.2什么是神经网络Relurecity:取不小于0的值我们把房屋的面积作为神经网络的输入(我们称之为x),通过一个节点(一个小圆圈),最终输出了价格(我们用y表示)。其实这个小圆圈就是一个单独的神经元。神经网络当你......
  • Advanced Data Analytics Using Python_ With Machine Learning, Deep Learning and N
    本书提供了使用Python进行高级数据分析的方法,涵盖了机器学习、深度学习和自然语言处理的应用实例。书中详细讲解了如何在不同的数据库环境中进行数据提取、转换和加载(ETL),并探讨了监督学习、无监督学习、深度学习、时间序列分析以及大规模数据分析的相关内容。目录简介为......
  • COMP9444 Neural Networks and Deep Learning
    COMP9444NeuralNetworksandDeepLearningTerm2,2024Assignment-CharactersandHiddenUnitDynamicsDue:Tuesday2July,23:59pmMarks:20%offinalassessmentInthisassignment,youwillbeimplementingandtrainingneuralnetworkmodelsforthr......
  • 伪装目标检测论文阅读 VSCode:General Visual Salient and Camouflaged Object Detect
    论文link:link代码:code1.摘要  显著物体检测和伪装物体检测是相关但又不同的二元映射任务,这些任务涉及多种模态,具有共同点和独特线索,现有研究通常采用复杂的特定于任务的专家模型,可能会导致冗余和次优结果。我们引入了VSCode,这是一种具有新颖的2D提示学习的通用模型,用于......
  • Machine Learning and Artifcial Intelligence -2nd Edition(人工智能与机器学习第二版
    #《人工智能和机器学习》由AmeetV.Joshi撰写,是一本关于人工智能(AI)和机器学习(ML)的综合性教材,旨在为学生和专业人士提供基础理论、算法和实际应用的全面指导。这本书分为七个部分,涵盖了从基础概念到高级应用的广泛内容。#内容结构PartI:Introduction本部分介绍了人工智......
  • 【FAS】《Application of machine learning to face Anti-spoofing detection》
    文章目录原文相关工作方法静态Gabor小波和动态LBP的融合特征基于GAN的数据增强人脸活体检测方法半监督学习用于图像修复的人脸活体检测点评原文李莉.反欺骗人脸活体图像的机器学习方法研究[D].广东工业学,2020.DOI:10.27029/d.cnki.ggdgu.2020.001204.相关......
  • COMP9444 Neural Networks and Deep Learning
    COMP9444 Neural Networksand Deep LearningTerm 2, 2024Assignment -Charactersand Hidden Unit DynamicsDue:Tuesday2July, 23:59 pmMarks:20%of final assessmentInthisassignment,youwill be implementingandtraining neural network m......
  • 【论文笔记】Parameter-Effificient Transfer Learning for NLP
    题目:Parameter-EffificientTransferLearningforNLP阅读文章目录0.摘要1.引言2AdaptertuningforNLP3实验3.1参数/性能平衡3.2讨论4.相关工作0.摘要克服微调训练不高效的问题,增加一些adapter模块,思想就是固定原始的网络中的参数,针对任务增加一些可以训练......
  • 阅读笔记:DualGAN: Unsupervised Dual Learning for Image-to-Image Translation
    以下是原论文分析,欢迎指正~DualGAN:用于图像转换的无监督双向学习作者:ZiliYi、Hao(Richard)Zhang、PingTan和MinglunGong纽芬兰纪念大学西蒙弗雷泽大学摘要  使用条件生成对抗网络(conditionalGAN)进行跨域图像转换在过去一年中取得了重大改进.根据任务的复杂程度......