首页 > 其他分享 >技术分享 | 强化学习,让机器像人类一样自我学习

技术分享 | 强化学习,让机器像人类一样自我学习

时间:2023-09-07 11:35:38浏览次数:36  
标签:获取 自我 agent Jerry 学习 奖励 强化 分享

如果说近年来有什么是各行各业共通的话题,那就一定是强化学习,这是一个让机器能够像人类一样通过与环境互动来学习和改进自己决策的领域。它不仅令人兴奋,而且具有革命性的潜力,可以改变我们生活和工作的方式。

随着计算能力的不断增强和数据的丰富性,强化学习正迅速发展,各大互联网企业也逐渐推出自己的大模型,让强化学习成为人工智能领域的一颗璀璨明珠。

技术分享 | 强化学习,让机器像人类一样自我学习_任务模型

强化学习 (Reinforcement Learning ),简称 RL, 是⼀种机器学习⽅法,旨在训练智能体(或机器⼈)从环境中获得经验,通过试错的⽅式逐渐提⾼其决策能⼒,以实现特定的目标。强化学习涉及到智能体与环境之间不断的互动和反馈,智能体根据环境的反馈调整其行为策略,逐渐学习到最优的决策⽅案。强化学习在众多领域中都有广泛的应用,如自动驾驶、游戏策略、金融交易、机器⼈控制等。

强化学习背后的思想是:⼀个 agent(智能体/机器⼈)从  “与环境交互并从行动中获取奖励” 中学习 ⸺ 这类似于⼈的成长过程。

技术分享 | 强化学习,让机器像人类一样自我学习_强化学习_02

  • agent:可以通过反复试验学习并做出决策的实体,它从周围环境中获得奖励和惩罚;
  • environment:虚拟的世界,用于 agent 通过与其交互来学习;
  • state :对 environment 的完整描述;
  • action :agent 执行的操作;
  • reward :: 分为激励和惩罚,是 RL 的基本因素,用于告诉 agent 它的 action 产生的结果是好还是坏。

技术分享 | 强化学习,让机器像人类一样自我学习_强化学习_03

  • agent 从 environment 中获取第⼀个 state S0 ;
  • 基于 S0 , agent 采取第⼀个 action A0 ;
  • environment 给出⼀个新的 state SA1;
  • environment 给出 reward R1 ;

循环以上 state、action 和 reward 步骤。agent 的目的是最大化累积奖励。

技术分享 | 强化学习,让机器像人类一样自我学习_机器学习_04

技术分享 | 强化学习,让机器像人类一样自我学习_强化学习_05

RL 的目的是获取累积的奖励, 期望获取最大累积收益。

  • 基本公式

技术分享 | 强化学习,让机器像人类一样自我学习_强化学习_06

等价于

技术分享 | 强化学习,让机器像人类一样自我学习_机器学习_07

  •  Jerry & Tom 的故事

技术分享 | 强化学习,让机器像人类一样自我学习_机器学习_08

这里 agent 是 Jerry。Jerry 想要获得最⼤的累积奖励就是要吃掉所有的奶酪, 但是越靠近 Tom 的地⽅危险就越⼤ ⸺ 即使那边有更多的奶酪,我们可能也不愿意先去冒这个风险,因为⼀旦被  Tom 抓住就⽆法再获取更多的奶酪, 从而⽆法达成  Jerry 的目标。所以再这里我们引⼊奖励系数 γ :

  • 危险越⼤ , 回报系数 γ 越小,Jerry 更关⼼短期奖励;
  • 危险越小, 回报系数 γ 越⼤ ,Jerry 更关⼼长期奖励;

因此我们改良了公式,即 :

技术分享 | 强化学习,让机器像人类一样自我学习_任务模型_09

本公式是在基本公式的基础上增加了奖励的权重:在每⼀步中都会按照权重的时间指数形式对奖励重新计算。随着时间的增加,Jerry 离 Tom 越近未来奖励发生的可能性越小。

技术分享 | 强化学习,让机器像人类一样自我学习_强化学习_10

  • 场景任务模型:
    这个模型中存在明确的开始点和结束点, 例如游戏:进⼊游戏是开始点, 游戏结束(被打死,或者玩到通关)是结束点。
  • 连续任务模型:
    在这个模型中⼀旦开始就会⼀直持续下去⸺ 除非主动退出, 例如投资股票, 需要不断的关注时长的变化。

技术分享 | 强化学习,让机器像人类一样自我学习_强化学习_11

针对任务模型, 这里提出了两种解决思路:

技术分享 | 强化学习,让机器像人类一样自我学习_机器学习_12

蒙特卡洛⽅法(Monte Carlo),是指在场景的结束时获取所有的奖励,并计算总体奖励。

技术分享 | 强化学习,让机器像人类一样自我学习_任务模型_13

整体步骤如下:

  • 游戏开始作为场景的起点;
  • 游戏结束作为场景的终点;
  • 在终点我们会得到⼀个 stats、actions、rewords 和新 states 的列表;
  • 根据公式计算总奖励;
  • 根据上面的公式更新 V(st);
  • 开始新⼀轮的游戏;

随着运行次数增多,我们的 Jerry 会吃得越来越多。

技术分享 | 强化学习,让机器像人类一样自我学习_强化学习_14

时间差学习⽅法(TD Temporal Difference Learning),TD 的⽅法与蒙特卡洛⽅法相反,它不会等待场景的结束在去计算,而是在每⼀步中评估未来预期最⼤奖励:它为当前经历的状态 S 评估价值 V;

TD的核⼼思想是评估,即通过将其更新为⼀ 步目标来更新先前的估计 V(st)。

技术分享 | 强化学习,让机器像人类一样自我学习_任务模型_15

TD 不会等待场景的结束,而是在 (t+1) 时刻后都会使用得到的奖励值 Rt+1 来评估当前状态下的价值 V(St+1) ;而蒙特卡洛方法则需要经历多个周期才能得到理想的效果。

技术分享 | 强化学习,让机器像人类一样自我学习_强化学习_16

探索 :探索是指获取环境中更多的信息;

开发 :是从已知的信息中获取最大的收益;

技术分享 | 强化学习,让机器像人类一样自我学习_任务模型_17

我们时刻要记住 Jerry 的目标是最大化预期的累积收益。

在上面这个例子中, 如果只有开发,则 Jerry 周边就有无穷的小奶酪,那么 Jerry 仅会关注周围的小奶酪,而不会获取到远处的大奶酪;假如在这里加入一些探索,Jerry 就能获得更大的奖励。

所以我们需要指定一个规则, 用于对探索和开发的平衡。

技术分享 | 强化学习,让机器像人类一样自我学习_强化学习_18

技术分享 | 强化学习,让机器像人类一样自我学习_强化学习_19

使用基于价值的方法我们可以使用优化价值函数 V(s) ;它能告诉我们在 agent 每个状态下的最大未来预期回报。

技术分享 | 强化学习,让机器像人类一样自我学习_强化学习_20

每个状态的价值是 agent 从该状态开始到未来期望累积的奖励总额。agent 利用价值函数来选择每一步的状态:它会选择最大价值的状态。

技术分享 | 强化学习,让机器像人类一样自我学习_强化学习_21

直接优化策略函数 π(s) ,策略就是是在给定的时间定义的 agent 的行为。

技术分享 | 强化学习,让机器像人类一样自我学习_机器学习_22

通过策略函数,我们可以得到状态和最佳操作的映射关系。即:

  • 确定性 :一个给定的状态总是返回相同的操作;
  • 随机性 :输出操作的分布概率。

技术分享 | 强化学习,让机器像人类一样自我学习_强化学习_23

技术分享 | 强化学习,让机器像人类一样自我学习_机器学习_24

基于模型的方法不同的环境有不同的模型, 所以需要针对每种环境建立一个模型。

  • Q-Learning: 采用传统的算法去产生 Q table; 
  • Deep Q-Learning: 采用神经网络产生 Q value;

技术分享 | 强化学习,让机器像人类一样自我学习_强化学习_25

技术分享 | 强化学习,让机器像人类一样自我学习_机器学习_26

强化学习是一个迭代的过程,通常需要不断地调整参数、改进策略以及增加训练经验,以使代理能够逐渐提高性能。这一能力使得强化学习在面对复杂、不确定且动态变化的环境时表现出色。

虽然过程可能会面临挑战,但也可以在许多领域中取得显著的成就,从自动化控制到游戏玩法优化,再到金融交易策略的制定。它代表了一种机器学习方法,能够使机器代理通过与环境的互动来自主学习并不断改进其决策和行为。

那么,当强化学习运用在 OS 中时,会触发什么样的惊喜呢?鼎道智联正在打造的 DingOS 就在探索这一能力,力争为用户带来更安全、绿色、便捷的操作体验,如果你也对此感兴趣,欢迎我们加入鼎道生态,和我们一起创造出更智能、更高效、更可持续的未来。


标签:获取,自我,agent,Jerry,学习,奖励,强化,分享
From: https://blog.51cto.com/u_15368321/7395415

相关文章

  • 基于QEMU aarch64学习UEFI-2系统安装
    基于QEMU-aarch64学习UEFI(EDK2)-2安装操作系统目录基于QEMU-aarch64学习UEFI(EDK2)-2安装操作系统二、基于qemu固件安装操作系统1、virt-manager安装2、创建虚拟机2.1Ubuntu系统开机等待时间长问题解决3、virt-manager日常使用4、更换虚拟机固件4.1、修改固件大小5、virt-manag......
  • SpringBoot学习之配置MyBatis常见异常
    Invalidboundstatement(notfound)出现原因和解决方法: 常见原因:1.mapper.xml中namespace和实际mapper接口所在的位置不一致。2.mapper.xml中的id名称和maapper接口中的方法名称不一致。3.如果上述两点都没有问题,那么大概率是application配置文件有配置错误。 程序和S......
  • 【方案分享】国标视频\国标云服务平台EasyGBS在野外场景中摄像头没有固定ip,如何联网
    TSINGSEE青犀视频平台的视频能力十分灵活,在实际项目中也经历过多种多样的监控场景与需求。较为常见的监控场景如工厂、校园、商场、楼宇、社区等等,摄像头在固定的场所,现场网络环境较好,摄像头有固定的IP。除了以上较为普遍的场景,我们也还有很多位于野外的监控场景需求,比如景区、果园......
  • 自我介绍和软工五问
    作业要求这个作业属于哪个课程软件工程这个作业要求在哪里自我介绍+软工五问这个作业的目标1、自我介绍。2、五个问题。3、收获什么。自我介绍我叫郑佳媚,来自广东潮南现阶段学习前端开发方向,是C.A.T工作室的前端开发组作为一名前端程序员,我的主......
  • 学习hadoop的URL链接
    http://caibinbupt.javaeye.com/蔡斌,hadoop源码分析HIVE的详细教程http://www.tbdata.org/archives/category/hive淘宝数据平台团队Map/Reduce数据流http://www.cppblog.com/koson/category/13296.html ......
  • 字符串的语法学习2
    这张图片,for(charc:s),s是字符串,c可以遍历s中的每个字符然后,for(char&c:s)中的“&”可以在下文将s中的字符改变为“a gets已经被删掉了,fgets会把回车读进来因此会多一个格子?然后会影响for循环,所以如图,for中要做点修改......
  • 嵌入式深度学习—硬件算法协同优化
    主要利用神经网络的三个特性:并行计算、数据复用模型具有稀疏性。很多模型中的权值为0或很小,数据经过以后会直接变为无用值深度学习具有鲁棒性,对数据的误差不敏感测试时固定点神经网络(Test-TimeFixed-PointNeuralNetworks)测试时固定点神经网络(Test-TimeFixed-PointNeur......
  • 自我介绍+软工5问
    作业概述这个作业属于哪个课程软件工程这个作业要求在哪里自我介绍+软工5问这个作业的目标自我介绍、博客园平台和github平台的使用自我介绍我叫蒋应鑫,目前就读于广东工业大学,我喜欢听音乐、踢足球还有学习。软工5问软件工程的产生背景?工程概论这门课可以......
  • JAVA学习路线
    学习Java基础知识是成为一名Java开发者的重要第一步。以下是一些建议的资源和一个大致的学习时间安排:学习资源:官方文档和教程:Java的官方网站(Oracle或OpenJDK)提供了丰富的文档和教程,包括JavaSE教程。这些资源是学习Java的很好起点。在线课程:有许多免费和付费的在线课程,如Co......
  • 深度学习(VGGNet)
    VGGNet也是一个比较经典的深度学习网络模型。模型结构如下:这里选用了D模型,同样用该模型做个了个猫狗大战的训练,不过为了提高速度,我把图像resize为112*112了,相应的flatten之后就成56*3*3了,所以和原始模型有点不一样。importtorchimporttorch.nnasnnimporttorch.optima......