首页 > 其他分享 >task01:绪论、马尔可夫过程、动态规划

task01:绪论、马尔可夫过程、动态规划

时间:2023-11-15 16:11:51浏览次数:25  
标签:状态 绪论 迭代 学习 智能 马尔可夫 task01 过程

绪论

1.强化学习

1.1强化学习定义

强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

1.2强化学习的应用

游戏和机器人领域,强化学习在金融领域也有所应用,例如股票交易、期货交易、外汇交易等。在股票交易中,我们的目标是通过买卖股票来最大化我们的资产。在这个过程中,我们需要不断地观测当前的股票价格,然后根据当前的价格来决定买入或卖出股票的数量,最后通过股票价格的变化来更新我们的资产。在这个过程中,我们的资产会随着股票价格的变化而变化,这就是奖励或惩罚,每次的买卖就是决策。当然,强化学习的应用还远远不止如此,例如自动驾驶、推荐系统、交通派单、广告投放以及近来大火的ChatGPT等,这些都是。

1.3强化学习方向概述

1.3.1多智能体强化学习

多智能体强化学习就是在多个智能体的环境下进行强化学习。与单智能体环境不同,在多智能体环境中通常存在非静态问题,即环境的状态不仅由智能体的动作决定,还受到其他智能体的动作的影响。用自己的话来说就是多个环境和单个环境的区别,同时可能还会收外界的干扰

1.3.2从数据中学习

从数据中学习就是在一些专家数据中进行学习策略,比较典型的代表有逆强化学习和离线强化学习、世界模型等,都是采用了数据来辅助强化学习,而在强化学习的过程中涉及到的两个最为突出的问题是探索策略和实时环境以及多任务强化学习

  • 探索策略:在强化学习中,智能体要通过在探索和利用之间做出权衡。在探索时,由于未知,智能体可能会使用未知的动作,这可能会得到奖励,也可能会得到惩罚;而在利用时,利用自己的已知动作,这让不会受到惩罚,但是奖励比较少,所以如何平衡这两者之间的关系就显得尤为重要。同时我们应该明确提高探索的本质也是为了避免局部最优问题,从而提高智能体的鲁棒性。
  • 实时环境:简单理解实时环境是可变的,这导致智能题面对不断变化的环境时产生安全隐患以及效率降低等问题,而离线强化学习则能较好的解决这一问题,但是里离线环境和在线环境可能存在着分布漂移(个人理解应该是时间差或者一些突发状况)这就导致了训练好的模型在在线环境中可能会出现意外
  • 多任务强化学习:这个问题在深度学习中也较为常见,在实际应用中,智能体往往需要同时解决多个任务,例如机器人需要同时完成抓取、搬运、放置等任务,而不是单一的抓取任务。在这种情况下,如何在多个任务之间做出权衡是一个难题。目前比较常用的方法有联合训练和分层强化学习等等。

马尔可夫过程

1.马尔可夫决策过程

  • 马尔可夫决策过程是强化学习的基本问题模型之一,它能够以数学的形式来描述智能体在与环境交互的过程中学到一个目标的过程(目标通常是以最大化累积的奖励来呈现的)。在这里要区分智能体和环境,智能体充当的是作出决策或动作,并且在交互过程中学习的角色,环境指的是智能体与之交互的一切外在事物,不包括智能体本身。
  • 马尔可夫决策过程中智能体与环境的交互过程:智能体每一时刻都会接收环境的状态,并执行动作,进而接收到环境反馈的奖励信号和下一时刻的状态。

2.马尔可夫性质

在给定历史状态的情况下,某个状态的未来只与当前状态有关,与历史的状态无关。
每个状态的转移只依赖于之前的n个状态,这个过程被称为1个n阶的模型,其中n是影响转移状态的数目。最简单的马尔可夫过程就是一阶过程,每一个状态的转移只依赖于其之前的那一个状态.

3.回报

马尔可夫决策过程中智能体的目标最大化累积的奖励,通常我们将这个累积的奖励叫做回报(return)
Gt=rt+1+γrt+2+γ2rt+3+γ3rt+4+…+γT−t−1rT
T是最终时刻,γ 是折扣因子,越往后得到的奖励,折扣越多。这说明我们更希望得到现有的奖励,对未来的奖励要打折扣。当我们有了回报之后,就可以定义状态的价值了,就是状态价值函数。
使用折扣因子的原因:

  • 有些马尔可夫过程是带环的,并不会终结,这样就会避免无穷的奖励
  • 我们并不能建立一个完美的模拟环境的模型,同时不一定完全信任模型,所以我们就提前希望得到奖励,而不是在未来的某一节点
  • 第三,如果奖励是有实际价值的,我们可能更希望立刻就得到奖励,而不是滞后的奖励

3.1马尔可夫奖励过程价值的迭代算法

我们可以将迭代的算法用于马尔可夫的奖励过程,比如:动态规划方法、蒙特卡洛方法、时序差分学习方法。

3.2马尔可夫决策过程和马尔可夫过程/马尔可夫奖励过程的区别

马尔可夫过程/马尔可夫奖励过程的状态转移是直接决定的。但是马尔可夫决策过程中多了一层动作a,当他到达一个黑色节点之后 ,此时智能体进入未来的状态其实也是一个概率分布,在当前状态与未来状态转移过程中多了一层决策性,这是马尔可夫决策过程与之前的马尔可夫过程/马尔可夫奖励过程很不同的一点。

4.状态转移矩阵

强化学习过程中的环境并不是静止不动的,他也可以是其他的智能体,有时智能体和环境的角色是能相互对调的,只要能各自建模成马尔可夫决策过程即可。
状态转移矩阵类似于条件概率(conditional probability),它表示当我们知道当前我们在状态st时,到达下面所有状态的概率。所以它的每一行描述的是从一个节点到达所有其他节点的概率。

动态规划

解决马尔可夫决策过程的方法我们统称为强化学习算法。动态规划并不是强化学习领域中的独有算法,动态规划具体指的是在某些复杂问题中,将问题转化为若干个子问题,并在求解每个子问题的过程中保存已经求解的结果,以便后续使用。

1.动态规划的编程思想

动态规划的解法主要有几个步骤:确定状态,写出状态转移方程和寻找边界条件。
动态规划问题有三个性质,最优化原理、无后效性和有重叠子问题。
无后效性:指的是即某阶段状态一旦确定,就不受这个状态以后决策的影响,即马尔可夫性质。
最优化原理:如果问题的最优解所包含的子问题的解也是最优的,就称该问题具有最优子结构,即满足最优化原理。

2.状态价值函数和动作价值函数

价值函数是强化学习中最常用的理论类型之一,用于评估状态或行动的价值。价值函数包括状态价值函数和动作价值函数。
状态价值函数(V)定义了某个状态的长期价值,动作价值函数(Q)定义了某个状态下采取某个动作的长期价值。这些函数可以通过贝尔曼方程计算,贝尔曼方程定义了一个状态的长期价值与后续状态的价值之间的关系。通过使用贝尔曼方程,可以计算出每个状态和动作的长期价值并优化行动策略。
贝尔曼方程的重要意义就在于前面所说的满足动态规划的最优化原理,即将前后两个状态之间联系起来,以便于递归地解决问题。
策略迭代和价值迭代是在决策分析和优化中常用的两种方法。它们都是通过迭代的方式来逐步改进决策或优化结果,但在具体应用和目标上有一些区别。
联系:

  • 迭代思想:策略迭代和价值迭代都基于迭代思想,通过多次迭代来逐步逼近最优值或最优策略。
  • 基于价值函数:两种方法都借助了价值函数的概念,用于衡量决策结果的好坏。
  • 相关领域:策略迭代和价值迭代都被广泛应用于强化学习领域,尤其是在解决马尔可夫决策过程(MDP)问题中。
    区别:
  • 目标不同:策略迭代的目标是找到最优策略,它通过交替进行策略评估和策略改进来达到最优化;而价值迭代的目标是找到最优值函数,它通过反复迭代更新值函数来逼近最优值。
  • 迭代顺序不同:策略迭代按照策略评估和策略改进的顺序进行迭代,每次迭代都会得到一个新的策略;价值迭代则在每次迭代中直接更新值函数,不需要显式地估计和改进当前的策略。
  • 算法不同:策略迭代通常使用策略评估算法(如迭代法求解贝尔曼方程)和策略改进算法(如贪心法)的组合;价值迭代则使用值迭代算法,通过迭代性地更新值函数直至收敛。
    总的来说,策略迭代和价值迭代都是通过迭代的方式来逐步改进问题的解答,但它们的目标和迭代方式有所不同。具体使用哪种方法取决于问题的性质和需要解决的具体目标。

标签:状态,绪论,迭代,学习,智能,马尔可夫,task01,过程
From: https://www.cnblogs.com/wq0201coca/p/17832562.html

相关文章

  • matlab贝叶斯隐马尔可夫hmm模型实现|附代码数据
    原文链接:http://tecdat.cn/?p=7973原文出处:拓端数据部落公众号  最近我们被客户要求撰写关于贝叶斯隐马尔可夫hmm的研究报告,包括一些图形和统计输出。贝叶斯隐马尔可夫模型是一种用于分割连续多变量数据的概率模型。该模型将数据解释为一系列隐藏状态生成。每个状态都是重尾......
  • matlab用Logistic逻辑回归建模和马尔可夫链蒙特卡罗MCMC方法分析汽车实验数据
    原文链接:http://tecdat.cn/?p=24103原文出处:拓端数据部落公众号 此示例说明如何使用逻辑回归模型进行贝叶斯推断。统计推断通常基于最大似然估计(MLE)。MLE选择能够使数据似然最大化的参数,是一种较为自然的方法。在MLE中,假定参数是未知但固定的数值,并在一定的置信度下进......
  • 数据结构与算法—绪论
    前言数据结构与算法是程序员内功体现的重要标准之一,且数据结构也应用在各个方面,业界更有程序=数据结构+算法这个等式存在。各个中间件开发者,架构师他们都在努力的优化中间件、项目结构以及算法提高运行效率和降低内存占用,在这里数据结构起到相当重要的作用。此外数据结构也蕴含一......
  • 【数据结构】第一章——绪论(1)
    数据结构的基本概念大家好,今天开始,我将开始从原先的专心学习C语言调整到边学习C语言,边学习数据结构的相关内容。当然,在学习的过程中我也会将各个知识点通过博客记录下来并将自己对知识点的理解分享给大家。本章内容是数据结构的概述,我们可以通过对本章内容的学习,初步了解数据结构的......
  • 马尔可夫转换模型研究交通伤亡人数事故时间序列预测|附代码数据
    最近我们被客户要求撰写关于马尔可夫转换模型的研究报告,包括一些图形和统计输出。本文描述了R语言中马尔克夫转换模型的分析过程首先,对模拟数据集进行详细建模。接下来,将马尔可夫转换模型拟合到具有离散响应变量的真实数据集。用于验证对这些数据集建模的不同方法。模拟实例示例数......
  • 【习题】绪论
    0-1查阅《中国大百科全书》(化学卷),阅读条目"化学"的内容。0-2将绪论中关于化学的定义和化学的主要分支与《中国大百科全书》有关内容进行对比,并在课外进行讨论。0-3化学学习的目的、态度与方法......
  • 【学习】绪论
    绪论,化学学科的简介。1.化学的研究对象化学物质"chemicalsubstances"宏观上:物体微观上:原子:亚分子:其变化为原子的化合与分解分子:原子以强相互作用力(化学键)组合形成的原子聚集体,核-电子体系。超分子:若干分子以弱相互作用(范德华力/氢键),并通过所谓"自组装"构筑......
  • 第一章:绪论
    第一章:绪论本章试图解释,为什么人工智能是一个最值得研究的学科,并试图给它一个准确的定义。1.什么是人工智能我们都曾听说过“人工智能”,它简直更法术似的,仿佛是世间一切问题的通解;一切事物,只要名字与它靠在一起,就可以立马变得很玄乎(跟量子力学似的。本书中作者用(应该说是当......
  • R语言使用马尔可夫链对营销中的渠道归因建模|附代码数据
    原文链接:http://tecdat.cn/?p=5383最近我们被客户要求撰写关于马尔可夫链的研究报告,包括一些图形和统计输出。在这篇文章中,我们看看什么是渠道归因,以及它如何与马尔可夫链的概念联系起来我们还将通过一个电子商务公司的案例研究来理解这个概念如何在理论上和实践上运作(使用R)。......
  • 数据库绪论
    一、数据库系统概述1.1数据库四个基本概念1.1.1数据(data)  数据是数据库中存储的基本对象。描述事物的符号记录称为数据,描述事物的符号可以是文字、图形、图像、音频、视频等,数据有多重表现形式,它们都可以经过数字化后存入计算机。数据的含义称为数据的语义,例如:李明是数据,名......