强化学习：连续控制问题中Actor-Critic算法的linear baseline

时间：2023-06-03 21:36:56浏览次数：58

标签：linear self torch coeff Actor Critic reg size

最近在看连续控制问题，看到了一个Actor-Critic算法中手动扩展features和设置linear baseline的方法，这些方法源自论文：《Benchmarking Deep Reinforcement Learning for Continuous Control》。

对于低维的features我们可以手动扩展：

强化学习：连续控制问题中Actor-Critic算法的linear baseline_连续控制

代码实现：

return torch.cat([observations, observations ** 2, al, al ** 2, al ** 3, ones], dim=2)

-----------------------------------------------------

linear baseline，在AC算法中给Critic降低方差之用，给出一种简单的线性拟合方式，使用最小二乘法拟合：

代码：

def fit(self, episodes):
        # sequence_length * batch_size x feature_size
        featmat = self._feature(episodes).view(-1, self.feature_size)
        # sequence_length * batch_size x 1
        returns = episodes.returns.view(-1, 1)

        reg_coeff = self._reg_coeff
        eye = torch.eye(self.feature_size, dtype=torch.float32,
                        device=self.linear.weight.device)
        for _ in range(5):
            try:
                coeffs = torch.linalg.lstsq(
                    torch.matmul(featmat.t(), featmat) + reg_coeff * eye,
                    torch.matmul(featmat.t(), returns)
                ).solution
                break
            except RuntimeError:
                reg_coeff += 10
        else:
            raise RuntimeError('Unable to solve the normal equations in '
                               '`LinearFeatureBaseline`. The matrix X^T*X (with X the design '
                               'matrix) is not full-rank, regardless of the regularization '
                               '(maximum regularization: {0}).'.format(reg_coeff))
        self.linear.weight.data = coeffs.data.t()

===============================================

详细代码地址：

https://gitee.com/devilmaycry812839668/MAML-Pytorch-RL/blob/master/maml_rl/baseline.py

标签：linear,self,torch,coeff,Actor,Critic,reg,size
From： https://blog.51cto.com/u_15642578/6408707

强化学习基础篇[3]：DQN、Actor-Critic详细讲解
强化学习基础篇[3]：DQN、Actor-Critic详细讲解1.DQN详解1.1DQN网络概述及其创新点在之前的内容中，我们讲解了Q-learning和Sarsa算法。在这两个算法中，需要用一个Q表格来记录不同状态动作对应的价值，即一个大小为$[状态个数，动作个数]$的二维数组。在一些简单的强化学习环境中，比如......
spring cloud gateway 自定义GatewayFilterFactory
官网地址：https://docs.spring.io/spring-cloud-gateway/docs/2.2.9.RELEASE/reference/html/#writing-custom-route-predicate-factories参考地址：https://blog.csdn.net/myli92/article/details/127328893importcom.ruoyi.common.core.utils.StringUtils;importorg.springfr......
制品库 Jfrog Artifactory 搭建私服
1.JfrogArtifactory概述JFrogArtifactory功能最强大的二进制制品仓库。在Google、Apple、思科、甲骨文、华为、腾讯等众多世界500强公司中都有大规模使用，在二进制软件制品管理领域处于绝对领先地位。与其他服务不同，JJFrogArtifactory在版本发行上分类较多且杂。https://www......
如何将word图片粘贴到SiteFactory里面
如何做到ueditor批量上传word图片？1、前端引用代码<!DOCTYPE html PUBLIC "-//W3C//DTDXHTML1.0Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml"><head>......
IDEA中slf4j和logback冲突，快速排除（LoggerFactory is not a Logback LoggerContext but
pom文件中右击 ctrl+f输入点击定位选中shift+delet，直接排除或者手动输入排除 ......
聊聊CSS 缓动函数的新成员linear()
CSS缓动函数是一种用于控制CSS动画过渡效果的函数，可以让动画变得更加自然。这篇文章将介绍一种新的CSSeasingfunction，即linear()，它可以模拟出更复杂的缓动效果，文中demo请在chrome113+中观看。什么是easingfunction？在动画中，有一种叫做“缓动效果”的技术，它可以让动画变......
Spring AOP错误：org.springframework.beans.factory.BeanNotOfRequiredTypeException:
org.springframework.beans.factory.BeanNotOfRequiredTypeException:Beannamed'myCalculator'isexpectedtobeoftype'com.mashibing.service.MyCalculator'butwasactuallyoftype'com.sun.proxy.$Proxy19'atorg.springframew......
Abstract Factory Pattern 抽象工厂模式简介与 C# 示例【创建型】【设计模式来了】
〇、简介1、什么是抽象工厂模式？一句话解释：通过对抽象类和抽象工厂的一组实现，独立出一系列新的操作，客户端无需了解其逻辑直接访问。抽象工厂模式（AbstractFactoryPattern）是一种创建型模式。它用于创建一组相关对象的家族。强调的是一组对象之间的协作关系，而不是单个对象之......
Factory Method Pattern 工厂方法模式简介与 C# 示例【创建型】【设计模式来了】
〇、简介1、什么是工厂方法模式？一句话解释：实体类和工厂类均为单独实现，不影响已实现的类，方便扩展。工厂方法模式（FactoryMethodPattern）是一种创建型模式，它允许客户端通过工厂方法来创建对象，而不是直接使用构造函数。这样可以让客户端代码更加灵活，同时保持实现的独立性。工......
如何将word公式粘贴到SiteFactory里面
在之前在工作中遇到在富文本编辑器中粘贴图片不能展示的问题，于是各种网上扒拉，终于找到解决方案，在这里感谢一下知乎中众大神以及TheViper。通过知乎提供的思路找到粘贴的原理，通过TheViper找到粘贴图片的方法。其原理为一下步骤：监听粘贴事件；【用于插入图片】获取光标位置；【......

强化学习：连续控制问题中Actor-Critic算法的linear baseline

相关文章

赞助商

阅读排行