首页 > 其他分享 >概述增强式学习(Reinforcement Learning)

概述增强式学习(Reinforcement Learning)

时间:2023-07-22 21:24:52浏览次数:48  
标签:Network 训练 Reinforcement Environment 概述 Actor Learning Reward

概述增强式学习(Reinforcement Learning)

  • Supervised Learning(自监督学习):告诉机器输入和输出,用有标注的训练资料训练出的Network

  • Reinforcement Learning(增强式学习):给机器一个输入,我们不知道最佳输出是什么(适用于标注困难或者人也不知道答案是什么)

(机器需要知道什么是好,什么是不好)

引入:增强式学习也是机器学习的一种,也在找一个函数,在增强式学习中,有一个Actor(参与者)和Environment(环境),Environment会给Actor一个Observation(观察),Actor会进行输出,给Environment一个Action,从而影响改变Environment,以此循环互动,Environment也会不断给Actor一些Reward(奖励),以此告诉Actor的Action好坏

第一步:设置Actor的Network架构,输出为行为的分数

第二步:在一局游戏开始到结束整个过程中,机器的每个行为都可能得到Reward,把全部的Reward求和,即为Total Reward(总计分数),所以Loss可以为 -(Total Reward)

第三步:训练出Actor中参数是R(τ)越大越好(但训练中Actor的输出是有随机性;Env不是Network,而是黑盒子,Reward也不是Network,是规则;并且Env和Network可能也有随机性)

整个问题与GAN有相似之处:

  • Actor就像Generator
  • Env和Reward就像是Discriminator
  • 在GAN中Discriminator也是Network

如何操控Actor的输出:可以当成分类问题处理,

训练资料为某些输入的输出的分数(对于这个输入,这个输出有多好)

定义A(难点):

  • 搜集训练资料,{s,a},a1行为有多好A1不仅取决于r1,而是取决于r1开始一直到结束的全部r,这样就可以避免所有移动的行为得分为0的情况(导致机器只专注于攻击)

  • 当N比较大,游戏步伐多时,前边某步对后边的影响就会减弱,所以G’更合适:
  • 这样得出的Reward没有高低之分,不同的训练资料之间比较没有意义,所以需要标准化:使所有的G’都减一个Baseline(基线)

初始化参数后,进行跑T个数据去和环境做互动,记录{S,A},然后评价A,设置完A之后便可以定义Loss函数,Update模型中的参数

  • On Policy:要被训练的Actor和用于和环境互动的Actor是同一个Actor

一批训练资料只能更新一次参数,更新完之后就需要重新搜集材料

  • Off policy:要被训练的Actor和用于和环境互动的Actor不是同一个Actor

通过一些方法可以让同一批资料重复训练,因为On Policy,每次训练之后Actor都会提升,之前的学习资料相对应现在的模型已经不适合了(自己与环境互动边玩边进步);Off Policy相当于看别人玩,自己学习而进步;同时Actor与环境互动时,做出的行为的随机性也应该大一些,这样才可以收集到更丰富的训练资料

:Critic估测某个Actor,用已经看到的游戏画面,估测这个Actor将得到多少奖励

 

标签:Network,训练,Reinforcement,Environment,概述,Actor,Learning,Reward
From: https://www.cnblogs.com/TianLiang-2000/p/17574256.html

相关文章

  • Redis概述及安装
    Redis是什么基于内存的key-value结构的非关系型数据库,远程字典服务特点基于内存存储,读写性能高适合存储热点数据(热点商品,资讯,新闻)使用范围广能做什么数据缓存消息队列注册中心发布订阅Redis入门官网:https://redis.io关系型数据库(RDBMS):MysqlOracleDB2SQLServ......
  • JavaNote-概述及安装
    1.Java语言概述1.1Java概述是SUN(StanfordUniversityNetwork,斯坦福大学网络公司)1995年推出的一门高级编程语言。是一种面向Internet的编程语言。Java一开始富有吸引力是因为Java程序可以在Web浏览器中运行。这些Java程序被称为Java小程序(Applet),内嵌在HTML代码中。伴......
  • 动态规划5.1-概述
    一、概念以下内容摘自代码源两个要求最优子结构:大问题的解可以从小问题的解推出,在问题的拆解过程中不能无限递归无后效性:未来与过去无关,一旦得到小问题的解,得到该解的过程不影响大问题的求解两个元素状态:求解过程进行到了哪一步,可以理解为一个子问题转移:从一个状态(......
  • 机器学习编译(一):概述
    机器学习编译是一个process,把机器学习的开发转到部署。机器学习编译的目标IntegrationandDependencyMinimization.集成与最小化依赖.部署应用需要集成必要的元素,我们希望部署应用的时候尽可能减小应用的大小。LeverageHardwareNativeAcceleration.利用硬件原......
  • SAP Fiori Launchpad 概述
    SAPFiorilaunchpad是托管SAPFiori应用程序的shell,并为应用程序提供导航、个性化、嵌入式支持和应用程序配置等服务。SAPFioriLaunchpad是移动和桌面设备上SAPFiori应用程序的入口点。启动板显示带有图块的主页,其中可以显示实时状态指示器,例如打开的任务数量。每个......
  • 函数式编程-part1概述和理解
    为什么学?能够看懂公司里的代码大数量下处理集合效率高,因为有并行流,而自己创建处理会有很多问题代码可读性高消灭嵌套地狱本系列将从Lambda表达式、Stream流、Optional、函数式接口、方法引用等顺序开始讲解//查询未成年作家的评分在70以上的书籍由于洋流影响所......
  • machine learning-2023-07-19
    questions【链接】││──math││──线性回归││──逻辑回归│└──梯度下降││──python││──numpy(科学计算库)││──pandas(数据分析处理库)││──matplotlib(数据可视化库)│└──scikit-learn(机器学习库)││──模式识别......
  • (转)Overlay和Underlay网络协议区别及概述讲解
    原文:https://www.cnblogs.com/fengdejiyixx/p/15567609.html本文分别介绍Overlay网络模型和Underlay网络模型。(一)Overlay网络模型跨主机网络意味着将不同主机上的容器用同一个虚拟网络连接起来。这个虚拟网络的拓扑结构和实现技术就是网络模型。物理网络模型中,连通多个物理网......
  • Learning hard C#学习笔记——读书笔记 07
    1.值类型和引用类型1.1什么是值类型和引用类型值类型:包括简单类型,枚举类型,结构体类型等,值类型通常被分配在线程的堆栈上,变量保存的内容就是实例数据本身引用类型:引用类型实例则被分配在托管堆上,变量保存的是实例数据的内存地址,引用类型主要包括类类型、接口类型、委托类型......
  • 大语言模型的预训练4:指示学习Instruction Learning详解以及和Prompt Learning,In-cont
    大语言模型的预训练[4]:指示学习InstructionLearning:Entailment-oriented、PLMoriented、human-oriented详解以及和PromptLearning,In-contentLearning区别1.指示学习的定义InstructionLearning让模型对题目/描述式的指令进行学习。针对每个任务,单独生成指示,通过在若干个......