RLChina理论三：强化学习基础

时间：2023-07-17 21:24:22浏览次数：31

标签：RLChina 概率动作环境学习参数强化

强化学习基础

马尔可夫决策过程就是在，环境自发做出转变，是个随波逐流的过程，At是智能体的行动，在St环境状态下加入At动作，c才进入下个状态S(t+1)，即环境有自己的变化，也加入了智能体的决策。

有无监督学习与强化学习的区别

价值迭代和策略迭代区别

uploading-image-839474.png

五、无模型控制方法

只知道数据，不知道环境的转移函数是什么,常见的两种算法法
(1)SARSA

(2)Q学习，可以再次利用与环境交互产生的数据

价值函数近似算法

使用参数化的模型，来不断调整参数，来逼近和
在训练过程中两者都在发生变化，由于参数可导，可以用链式法则去更新参数是θ。

策略梯度(强化学习得精髓)

A2动作得到正向得奖励，增大选择A2动作的概率，适当降低其他动作的选这概率，同理A3得到负的奖励，降低选择A3动作的概率，适当增加其他动作的概率。这就是一个交互性、试错性的学习。

在求导过程中可以使用一个技巧，似然比

标签：RLChina,概率,动作,环境,学习,参数,强化
From： https://www.cnblogs.com/joiln/p/17088767.html

RLChina2022-实践课三：强化学习算法
MDP算法MDP被定义为一个元组(S,A,P,r,R)S:所有状态集合A:在环境力里面智能体所作动作的集合P:状态转移函数P(s'|s,a)，智能体在当前s下，执行a之后，转移到是s'的概率R:奖励函数R(s,a),表示在环境s下执行动作a之后获得的立即奖励，有时候还需要知道s'是多少才能共同决定奖励是多少。......
HTML简单学习
介绍：如果你想让你的网页在浏览器中正常显示，你就必须遵循HTML标签HTML文件的后缀名是.htmlHTML文档介绍：<!DOCTYPEhtml><htmllang="en"><head> <metacharset="UTF-8"> <title>Title</title>#标签顶部显示的内容</head><body></body&g......
软件测试从零基础到高级测试学习技术
软件测试从零基础到高级测试学习技术1.基础知识：-深入理解软件开发生命周期（SDLC）的不同阶段，如需求分析、设计、编码、测试和维护。-学习各种测试方法和技术，如静态测试、动态测试、回归测试和探索性测试等。-掌握测试文档的编写规范和最佳实践，如测试计划、测试用例规范......
c语言学习5
进制转换：1、为什么使用二进制、八进制、十六进制？因为目前的CPU只能识别高低两种电平，只能对二进制数据进行计算二进制虽然能够直接被计算机识别，但是不方便人去书写和记录，因此就把二进制数据转换成八进制，方便记录到文档中随着CPU的位数的不断增加，已经到目前的64位，所以八进制不再......
Java从零基础到架构师再到运维的学习路线
Java从零基础到架构师再到运维的学习路线1.Java基础知识：-Java语法和基本数据类型-面向对象编程概念：类、对象、继承、封装、多态等-流程控制和循环：条件语句、循环语句-异常处理：异常类型、try-catch-finally块-集合框架：-数组：一维数组和多维数组，数组的操......
Spring框架中的设计模式（重点学习！！！）
Spring中的设计模式Spring框架中用到的设计模式有很多，以下是一些常见的设计模式：依赖注入（DI）和控制反转（IoC）：这是Spring框架最核心的设计模式，它允许开发人员将对象之间的依赖关系从代码中抽离出来，由Spring容器负责管理和注入对象之间的依赖关系。工厂模式：Spring框架中的BeanFactor......
Docker 学习之路之私有仓库搭建
搭建私有仓库私有仓库其实也是由镜像创建出来的容器，因此私有仓库的搭建和我们利用docker部署应用的步骤是差不多的1.拉取私有仓库镜像dockerpullregistry2.启动私有仓库dockerrun-id--name=registry-p5000:5000registry3.打开浏览器，进入地址http://私有仓库......
5.5 集成学习- XGBoost
1XGBoost的基础思想与实现1.1XGBoostpk梯度提升树极限提升树XGBoost(ExtremeGradientBoosting，XGB，发音/æks-g-boost/)是基于梯度提升树GBDT全面升级的新一代提升算法，也是提升家族中最富盛名、最灵活、最被机器学习竞赛所青睐的算法。不同于我们之前学过的任意单一算法，XGBo......
提示词的学习路径和职业路径
第一部分：分享我的第三个客制化prompt案例prompt价值：客户需求：一位高校老师（法学院），组建了一个AI学习社团，想给社团成员开发一个用于学习总结的智能机器人应用，鼓励大家通过AI整合和学习知识，激活社团成员对AI工具的理解和学习热情，经过咨询和需求分析，我接受了这个订单。他们对prompt......
算法_贝叶斯网络学习_bayesian networks
基本概念条件概率联合概率边缘概率链式法则随机变量的独立性条件独立性贝叶斯规则、贝叶斯概率推理和贝叶斯网络模型。stochastic，主要用作形容词，主要意思为“随机的；猜测的”R语言包R语言用lme4多层次（混合效应）广义线性模型（GLM），逻辑回归分析lme4广义线性混合模型......