PPO算法——PPOxFamily

时间：2024-01-24 19:55:23浏览次数：25

标签：right PPOxFamily PPO 学习算法强化 left

1. 决策智能

目的就是搜索最优解，方法主要有两种：从模仿中学习、从试错中学习

从模仿中学习

通过棋谱来学棋
优势：简洁直观
劣势：数据要求高，可迁移性差

从试错中学习

通过对弈来学习
优势：可以不断提升和强化
劣势：过程复杂，效率和稳定性有待提高

深度强化学习——更强大、更通用、更稳定的搜索最优解的方法

2. 强化学习的特点

类比传统搜索方法

强化学习可以建模环境的未知性和不确定性，自主学到更抽象的搜索策略

类比监督学习

强化学习不是从固定的标签中学习，需要从延迟性的间接的奖励中学习

类比离线学习

强化学习需要平衡探索和利用，需要从非独立同分布的数据中学习

3. PPO算法解析

PPO算法全称Proximal Policy Optimization，即近端策略优化算法，该算法是OpenAI在2017提出的一种强化学习算法，被认为是目前强化学习领域的SOTA方法，也是适用性最广的算法之一。

PPO算法的核心思想是减小策略更新引起的方差，从而提高学习效果。具体来说，PPO算法通过引入一个近似目标函数和一个重要性采样来减小方差。近似目标函数通过将旧的策略和目标策略的差值限制在一个范围内，减小了方差。重要性采样通过计算旧策略和目标策略之间的比率，减小了方差。

下文将从传统的策略梯度算法开始，逐渐介绍PPO算法的来龙去脉。

\[P_\theta(\tau)=\rho\left(s_0\right) P_\theta\left(a_0 \mid s_0\right) P\left(s_1 \mid s_0, a_0\right) P_\theta\left(a_1 \mid s_1\right) P\left(s_2 \mid s_1, a_1\right) \cdots \]

标签：right,PPOxFamily,PPO,学习,算法,强化,left
From： https://www.cnblogs.com/yutian-blogs/p/17985176

代码随想录算法训练营第一天| 704. 二分查找、27. 移除元素。
704.二分查找题目链接：https://leetcode.cn/problems/binary-search/文章讲解：https://programmercarl.com/0704.二分查找.html简单的二分查找法，核心是认识区间的意义，注意以下几点：middle=low+(low+high)/2;这种写法可以防止溢出。注意low和high的循环条件判断，如果是左闭右闭......
重写SpringCloudGateway路由查找算法，性能提升100倍！
如果你也在做SpringCloudGateway网关开发，希望这篇文章能给你带来一些启发背景先说背景，某油项目，通过SpringCloudGateway配置了1.6万个路由规则，实际接口调用过程中，会偶现部分接口从发起请求到业务应用处理间隔了大概5秒的时间，经排查后发现是SpringCloudGateway底层在查找对应的R......
day25 代码随想录算法训练营 216. 组合总和 III
题目：216.组合总和III我的感悟：还是按照之前的套路来。多了一个参数path_sum应该是有两处剪枝，1处横线剪枝，1处纵向剪枝？或者说1处求和剪枝？1处范围剪枝？【疑问】理解难点：不剪枝的已经模的差不多了，剪枝的再看看自己听了一遍写的：[未剪枝]classSolution:defcombina......
字符串算法
#include<bits/stdc++.h>usingnamespacestd;typedeflonglongll;constllN=1e6+10;chars1[N],s2[N];lln1,n2,nt[N],f[N];intmain(){ cin>>(s1+1)>>(s2+1); n1=strlen(s1+1),n2=strlen(s2+1); for(lli=2,j=0;i<=n2;i++){ while(j......
数据挖掘||利用SQL Server 2012或者Excel 2013采用聚类和时序挖掘模型和算法，对自行车
1.实验要求利用SQLServer2012或者Excel2013（二者选择其一即可）进行数据挖掘实验，采用聚类和时序挖掘模型和算法，可以对附件中给定的excel数据进行聚类和时序挖掘实验，也可以采用自己采集的数据（如采用自选请说明数据来源）。 2.实验环境操作系统：windows11；软件：Excel2019；SQLServer......
Unity3D Rts游戏里的群体移动算法是如何实现的详解
前言实时战略（RTS）游戏是一种以管理和控制虚拟军队为主题的游戏类型。在这类游戏中，玩家需要控制大量的单位进行战斗、资源采集和建设等操作。其中，群体移动算法是实现这些操作的关键之一。本文将详细介绍Unity3DRTS游戏中群体移动算法的实现原理和代码实现。对惹，这里有一个游戏开......
有挑战才有收获！PaddleOCR算法模型挑战赛火热开启！
在数字化时代，文本和表格识别在生活和工作中扮演着越来越重要的角色。从扫描件、图片中的文字提取，到自动化录入数据、分析报表，这些场景都需要高效准确的文本识别和表格识别技术。作为PaddleOCR开源项目背后的维护者，飞桨团队一直致力于提升光学字符识别（Opticalcharacterrecognition......
算法模板 v1.3.2.20240124
算法模板v1.1.1.20240115：之前的历史版本已经不可寻，创建了第一份算法模板。v1.2.1.20240116：删除“编译”-“手动开栈”与“编译”-“手动开O优化”；将“编译”-“CF模板”中的第20行代码cin>>T;注释；删除“读写”及其目录下的内容；删除“图论”-“欧拉图”-“混合图”；删除“图论”-......
2024/1/23 算法笔记
1.负进制数[P1017NOIP2000提高组]进制转换-洛谷|计算机科学教育新生态(luogu.com.cn)所谓负进制数，就是进制数为负数的一种实数表示法。例如，-15(十进制)相当于110001(-2进制),并且它可以被表示为2的幂级数的和数:110001=1(-2)5+1*(-2)4+0(-2)3+0*(-2)2+0(-2)^1+1(-2)......
大语言模型的架构及其训练（目标函数和优化算法）
先占坑24号早上起来补大模型的架构大模型的训练模型训练=目标函数+优化算法可用任何模型将token序列映射到上下文嵌入中一、目标函数1.Decoder-only模型①映射到上下文嵌入②用嵌入矩阵获得每个token得分③指数化、归一化得预测分布用负对数最大似然作为目标函数2.Encoder-o......