首页 > 其他分享 >Reinforcement Learning Chapter 1

Reinforcement Learning Chapter 1

时间:2023-11-13 21:48:10浏览次数:34  
标签:Chapter 状态 动作 Reinforcement 目标 学习 state Learning 强化

本文参考《Reinforcement Learning:An Introduction(2nd Edition)》Sutton.

强化学习是什么

传统机器学习方法可分为有监督与无监督两类;

有监督学习 -----> 任务驱动

无监督学习 -----> 数据驱动

强化学习则可看作机器学习的“第三范式” -----> 模拟驱动,具体而言:通过agent与environment之间的交互进行学习。

为了更好利用交互所得信息来完成学习任务,我们通过一些计算性的方法(数值化)来实现强化学习。

强化学习的特征

总体而言我们希望通过强化学习得到一个映射:由情况空间(state)-----> 动作空间(action)的映射(或者更通俗点,当我面对情况A的时候,我选择动作B来达成我的目标)。

不妨联想一下人是如何学习的:我们在最开始的时候总是会去尝试一些动作,这些动作可能正确可能错误,但当时我们并不知道其正确与否,我们一般通过一段时间后事情发展的结果来对当时的动作好坏进行判断:比如小时候我们可能试过在期末考试前玩电脑,也试过在期末考试前认真复习(假设你没有考试前应该复习一下的概念: )),那在期末考试之前你应该不知道这两种行为会对你的考试结果有什么样的影响,但是当你考试结果出来之后,你可能会按着你的考试成绩推测一下:你的考前动作对你的考试结果有啥影响;之后你反复进行这个过程多次(考前选择玩or复习--->考试拿高分or低分),你逐渐形成一个判断:复习通常能带来高分,玩通常带来低分;那么根据这个判断你就可以为你的目标选择一种策略来完成目标:比如你想要拿今年的三好学生,要考试分数高一点,那你就会倾向于在考试前复习一下。

同样的我们在强化学习中也遵循着类似的流程,我们总会先试错,试错后根据总体收益(reward)(可以分为即时收益与延迟收益两部分),形成价值(value function)判断,根据价值判断与目标形成策略(policy)

那么应当注意的一点是,我们的目标一般是抽象的,间接的,比如我要赢下一盘象棋,我要学会走路……这些目标很难得到显式的收益表达(你很难说明开局帅五进一是让你的获胜概率从50%变成了1%)所以在强化学习中收益函数(reward)的设置是相当关键的;

 通过上述描述或许读者已经对RL有了初步了解(当然这种了解是基于作者的认知:)),下面作者将尝试更严谨的为强化学习中的要素下定义:

 智能体:具备学习能力;在某种程度上感知环境状态(全体/局部);可采取动作影响环境状态;有学习目标(与环境状态相关);

环境:对智能体的动作产生反馈,一般而言环境不确定(不可以根据当前状态预测最终结果(ground-truth),但可以根据动作更新状态并反馈即时奖励)

状态:环境当前状态的抽象表示,简记为 s

动作:智能体对环境施加影响的抽象表示,简记为 a

奖励:强化学习问题的目标,是环境向智能体反馈的一个标量数值,智能体的唯一目标是最大化长期总收益,一般而言奖励依赖于人工设计,与任务目标强相关。可被看作以二元组(state,action)为变量的函数 R(s,a)

价值:以state为变量的函数 V(s),表达对当前状态s未来累积总收益的期望,一般而言未知,但在学习过程中通过智能体与环境的不断交互而逐渐得到V(s),即所谓的价值估计方法;应当注意的是价值是来源于奖励的,但在生成策略时我们更重视价值(不难想到如果我们在交互过程中每次都选择转移到价值更优的状态(如果确实可以转移到新状态的话),那么我们的末状态一定累积了最多的奖励???或许这需要更严谨的证明)

策略:智能体在特定时间(状态)的行为方式,是state到action的映射,具体来说就是在状态s下采取动作a的概率分布(与价值相似,policy是可学习的),一般而言初始策略是随机策略(严格来说作者也不是很明白策略是什么,但可以确定的一点是我们希望通过RL给我们提供一个最优策略,是我们的长期总收益最大,那么据此倒推的话policy应当是state到state的映射,但是有价值、动作等约束条件,并且满足性质:尽可能保证长期总收益最大。这个部分欢迎纠正,作者也上网找了些资料但真没太看明白:( )

如果读者已经读过sutton的书的话,应该已经看到了书上井字棋的例子,里面提及了差分更新、有/无模型学习等概念,这里作者就不再抄书给大家炒冷饭了,这些概念留着到对应章节再给大家分享作者的理解。

另:第一次写blog,加上自身也刚开始学习,难免有误,欢迎大佬指正,也欢迎大家讨论交流。

                                                                  2023/11/13 刘国林

 

标签:Chapter,状态,动作,Reinforcement,目标,学习,state,Learning,强化
From: https://www.cnblogs.com/LGL-sdu/p/17828070.html

相关文章

  • RLHF · PBRL | 发现部分 D4RL tasks 不适合做 offline reward learning 的 benchmark
    论文题目:BenchmarksandAlgorithmsforOfflinePreference-BasedRewardLearning,TMLR20230103发表。openreview:https://openreview.net/forum?id=TGuXXlbKsnpdf版本:https://arxiv.org/pdf/2301.01392.pdfhtml版本:https://ar5iv.labs.arxiv.org/html/2301.01392目......
  • TRL(Transformer Reinforcement Learning) PPO Trainer 学习笔记
    (1) PPOTrainerTRL支持PPOTrainer通过RL训练语言模型上的任何奖励信号。奖励信号可以来自手工制作的规则、指标或使用奖励模型的偏好数据。要获得完整的示例,请查看examples/notebooks/gpt2-sentiment.ipynb。Trainer很大程度上受到了原始OpenAIlearningtosummarizewo......
  • chapter 12: 块设备 I/O 和缓冲区管理
    学习笔记摘要本章深入研究了区块设备I/O和缓冲管理,重点介绍了原则、I/O缓冲的优势以及Unix缓冲管理算法的不足之处。提出使用信号量设计更高效的缓冲管理算法,介绍了PV算法作为示例。还提供了一个编程项目,用于比较Unix的缓冲管理算法和PV算法,有助于理解文件系统的I/O......
  • A Learning Method for Feature Correspondence with Outliers读书笔记
    ALearningMethodforFeatureCorrespondence withOutliers------2022年论文地址:ALearningMethodforFeatureCorrespondencewithOutliers|IEEEConferencePublication|IEEEXplore背景:SuperGlue在许多现实任务中取得了优异的性能,但在处理离群特征方面仍然存在问......
  • chapter 6:信号和信号处理
    学习笔记6.0摘要这一章由华盛顿州立大学电气工程学院的K.C.Wang编写,涵盖了信号和信号处理。它提供了对信号和中断的统一处理,将信号视为Unix/Linux进程的中断。该章节解释了信号的来源、类型和处理步骤,包括进程结构中的信号处理程序及其在InterprocessCommunication(IPC)中的作......
  • 论文阅读:Active Learning for Point Cloud Semantic Segmentation via Spatial-Struct
    ActiveLearningforPointCloudSemanticSegmentation viaSpatial-StructuralDiversityReasoning通过空间结构多样性推理进行点云语义分割的主动学习摘要众所周知,昂贵的注释成本是点云语义分割技术发展的一个主要制约因素。在本文中,我们提出了一种新的基于主动学习的方法来......
  • SuperGlue: Learning Feature Matching with Graph Neural Networks论文笔记
    SuperGlue:LearningFeatureMatchingwithGraphNeuralNetworks源码:github.com/magicleap/SuperGluePretrainedNetwork背景:主要解决图像中点之间的对应关系。主要方法:上图为该方法的主要框架。模型大致分为两个部分:注意图神经网络和最优匹配层。其中第i个局部特征由di......
  • 论文阅读:Efficient 3D Point Cloud Feature Learning for Large-Scale Place Recognit
    Efficient3DPointCloudFeatureLearningfor Large-ScalePlaceRecognition用于大规模场所识别的高效三维点云特征学习摘要由于变化环境中场景的外观和照度的急剧变化,基于点云的地点识别检索仍然是一个具有挑战性的问题。现有的基于深度学习的全局描述符的检索任务通常会消耗......
  • chapter12-chapter16
    目录chapter12:内中断1.内中断的产生2.中断处理程序3.中断向量表4.中断过程5.中断处理程序和iret指令单步中断chapter13:int指令chapter14:端口1.端口2.shl和shr指令chapter15:外中断1.可屏蔽中断2.不可屏蔽中断3.CPU及时处理外设输入的过程4.PC机键盘的处理过程chapter16:直接定址表1.......
  • 2023CVPR_Spatial-Frequency Mutual Learning for Face Super-Resolution
    一.Network:SFMNet1.网络采用U-Net结构,其中SFMLM-i是不同分辨率的每层结构2.SPB是空域分支,FRB是频域分支,分别经过FRB和SPB的两个分支信息经过FSIB分支进行信息的融合3.FRB结构:classFreBlock9(nn.Module):def__init__(self,channels,args):super(FreBlo......