首页 > 编程语言 >PPO算法——PPOxFamily

PPO算法——PPOxFamily

时间:2024-01-24 19:55:23浏览次数:25  
标签:right PPOxFamily PPO 学习 算法 强化 left

1. 决策智能

目的就是搜索最优解,方法主要有两种:从模仿中学习、从试错中学习

从模仿中学习

通过棋谱来学棋
优势:简洁直观
劣势:数据要求高,可迁移性差

从试错中学习

通过对弈来学习
优势:可以不断提升和强化
劣势:过程复杂,效率和稳定性有待提高

深度强化学习——更强大、更通用、更稳定的搜索最优解的方法

2. 强化学习的特点

类比传统搜索方法

强化学习可以建模环境的未知性和不确定性,自主学到更抽象的搜索策略

类比监督学习

强化学习不是从固定的标签中学习,需要从延迟性的间接的奖励中学习

类比离线学习

强化学习需要平衡探索和利用,需要从非独立同分布的数据中学习

3. PPO算法解析

PPO算法全称Proximal Policy Optimization,即近端策略优化算法,该算法是OpenAI在2017提出的一种强化学习算法,被认为是目前强化学习领域的SOTA方法,也是适用性最广的算法之一。

PPO算法的核心思想是减小策略更新引起的方差,从而提高学习效果。具体来说,PPO算法通过引入一个近似目标函数和一个重要性采样来减小方差。近似目标函数通过将旧的策略和目标策略的差值限制在一个范围内,减小了方差。重要性采样通过计算旧策略和目标策略之间的比率,减小了方差。

下文将从传统的策略梯度算法开始,逐渐介绍PPO算法的来龙去脉。

\[P_\theta(\tau)=\rho\left(s_0\right) P_\theta\left(a_0 \mid s_0\right) P\left(s_1 \mid s_0, a_0\right) P_\theta\left(a_1 \mid s_1\right) P\left(s_2 \mid s_1, a_1\right) \cdots \]

标签:right,PPOxFamily,PPO,学习,算法,强化,left
From: https://www.cnblogs.com/yutian-blogs/p/17985176

相关文章

  • 代码随想录算法训练营第一天| 704. 二分查找、27. 移除元素。
    704.二分查找题目链接:https://leetcode.cn/problems/binary-search/文章讲解:https://programmercarl.com/0704.二分查找.html简单的二分查找法,核心是认识区间的意义,注意以下几点:middle=low+(low+high)/2;这种写法可以防止溢出。注意low和high的循环条件判断,如果是左闭右闭......
  • 重写SpringCloudGateway路由查找算法,性能提升100倍!
    如果你也在做SpringCloudGateway网关开发,希望这篇文章能给你带来一些启发背景先说背景,某油项目,通过SpringCloudGateway配置了1.6万个路由规则,实际接口调用过程中,会偶现部分接口从发起请求到业务应用处理间隔了大概5秒的时间,经排查后发现是SpringCloudGateway底层在查找对应的R......
  • day25 代码随想录算法训练营 216. 组合总和 III
    题目:216.组合总和III我的感悟:还是按照之前的套路来。多了一个参数path_sum应该是有两处剪枝,1处横线剪枝,1处纵向剪枝?或者说1处求和剪枝?1处范围剪枝?【疑问】理解难点:不剪枝的已经模的差不多了,剪枝的再看看 自己听了一遍写的:[未剪枝]classSolution:defcombina......
  • 字符串算法
    #include<bits/stdc++.h>usingnamespacestd;typedeflonglongll;constllN=1e6+10;chars1[N],s2[N];lln1,n2,nt[N],f[N];intmain(){ cin>>(s1+1)>>(s2+1); n1=strlen(s1+1),n2=strlen(s2+1); for(lli=2,j=0;i<=n2;i++){ while(j......
  • 数据挖掘||利用SQL Server 2012或者Excel 2013采用聚类和时序挖掘模型和算法,对自行车
    1.实验要求 利用SQLServer2012或者Excel2013(二者选择其一即可)进行数据挖掘实验,采用聚类和时序挖掘模型和算法,可以对附件中给定的excel数据进行聚类和时序挖掘实验,也可以采用自己采集的数据(如采用自选请说明数据来源)。 2.实验环境 操作系统:windows11;软件:Excel2019;SQLServer......
  • Unity3D Rts游戏里的群体移动算法是如何实现的详解
    前言实时战略(RTS)游戏是一种以管理和控制虚拟军队为主题的游戏类型。在这类游戏中,玩家需要控制大量的单位进行战斗、资源采集和建设等操作。其中,群体移动算法是实现这些操作的关键之一。本文将详细介绍Unity3DRTS游戏中群体移动算法的实现原理和代码实现。对惹,这里有一个游戏开......
  • 有挑战才有收获!PaddleOCR算法模型挑战赛火热开启!
    在数字化时代,文本和表格识别在生活和工作中扮演着越来越重要的角色。从扫描件、图片中的文字提取,到自动化录入数据、分析报表,这些场景都需要高效准确的文本识别和表格识别技术。作为PaddleOCR开源项目背后的维护者,飞桨团队一直致力于提升光学字符识别(Opticalcharacterrecognition......
  • 算法模板 v1.3.2.20240124
    算法模板v1.1.1.20240115:之前的历史版本已经不可寻,创建了第一份算法模板。v1.2.1.20240116:删除“编译”-“手动开栈”与“编译”-“手动开O优化”;将“编译”-“CF模板”中的第20行代码cin>>T;注释;删除“读写”及其目录下的内容;删除“图论”-“欧拉图”-“混合图”;删除“图论”-......
  • 2024/1/23 算法笔记
    1.负进制数[P1017NOIP2000提高组]进制转换-洛谷|计算机科学教育新生态(luogu.com.cn)所谓负进制数,就是进制数为负数的一种实数表示法。例如,-15(十进制)相当于110001(-2进制),并且它可以被表示为2的幂级数的和数:110001=1(-2)5+1*(-2)4+0(-2)3+0*(-2)2+0(-2)^1+1(-2)......
  • 大语言模型的架构及其训练(目标函数和优化算法)
    先占坑24号早上起来补大模型的架构 大模型的训练模型训练=目标函数+优化算法可用任何模型将token序列映射到上下文嵌入中一、目标函数1.Decoder-only模型①映射到上下文嵌入②用嵌入矩阵获得每个token得分③指数化、归一化得预测分布用负对数最大似然作为目标函数2.Encoder-o......