首页 > 其他分享 >强化学习——策略梯度之Reinforce

强化学习——策略梯度之Reinforce

时间:2023-08-03 18:13:13浏览次数:43  
标签:梯度 sum state Reinforce action 强化 reward prob

1、策略梯度介绍

相比与DQN,策略梯度方法的区别主要在于,我们对于在某个状态下所采取的动作,并不由一个神经网络来决定,而是由一个策略函数来给出,而这个策略函数的目的,就是使得最终的奖励的累加和最大,这也是训练目标,所以训练会围绕策略函数的梯度来进行。

2、策略函数

以Reinforce算法为例,

假设我们的目标是最大化累积奖励的期望,即最大化以下形式的目标函数J(θ):

J(θ) = E[∑[t=0 to T] (R_t)]

其中,E表示对所有可能的轨迹(trajectories)进行期望,R_t是在时间步t获得的即时奖励。我们的策略函数可以表示为π(a|s;θ),其中θ表示策略函数的参数。我们希望通过调整θ来最大化J(θ),因此我们需要计算目标函数J(θ)关于参数θ的梯度。

具体地,我们将目标函数J(θ)的梯度表示为:

∇θ J(θ) = E[∑[t=0 to T] (∇θ log π(a_t|s_t;θ) * R_t)]

在这里,∇θ表示关于参数θ的梯度,log π(a_t|s_t;θ)表示策略函数在状态s_t下选择动作a_t的对数概率,R_t表示在时间步t获得的即时奖励。

接下来的关键是将整个目标函数的期望转换为对每个轨迹的期望,并使用蒙特卡洛采样来估计这个期望。我们通过采样多个轨迹,计算每个轨迹的梯度,然后取所有轨迹的梯度的平均值作为对目标函数梯度的估计。

为了做到这一点,我们引入累积回报G_t,表示从时间步t开始的累积奖励。G_t的定义如下:

G_t = R_t + γ * R_{t+1} + γ^2 * R_{t+2} + ... + γ^(T-t) * R_T

其中,γ是折扣因子,用于调整未来奖励的重要性。

补充:蒙特卡洛采样法,当我们要计算这个目标期望时是非常困难的,此时我们通过大量采样的方法估算出期望值,这就是蒙特卡洛采样法。其次,这里的回报G不仅仅与当前得到的reward有关,也和只会可以得到的reward有关。

现在,我们可以将目标函数的梯度重写为:

∇θ J(θ) = E[∑[t=0 to T] (∇θ log π(a_t|s_t;θ) * G_t)]

这样,我们就将目标函数的期望转换为了对每个轨迹的期望,然后通过蒙特卡洛采样来估计这个期望。在实际应用中,我们会使用多个样本轨迹来计算梯度的样本均值,并使用梯度上升法来更新策略函数的参数θ,以优化目标函数J(θ)。

以下是实现该数学公式的代码块:

#每往前一步,都衰减0.02,如何加上当前步的反馈
reward_sum *= 0.98
reward_sum += rewards[i]

#重新计算动作概率
state = torch .FloatTensor(states[i]).reshape(1,4)
prob = model(state)
prob = prob[0,actions[i]]

loss = -prob.log()*reward_sum

loss.backward(retain_graph=True)
注意这里的神经网络返回的是动作的概率分布

3、仍以平衡车为例具体实现代码

import gym
from matplotlib import pyplot as plt
import torch
import random
from IPython import display
import numpy as np

#创建环境
env = gym.make('CartPole-v1')
env.reset()

#打印游戏
def show():
plt.imshow(env.render(mode='rgb_array'))
plt.axis('off')
plt.show()
#show()

#计算动作模型,也就是真正需要使用的模型
model = torch.nn.Sequential(
torch.nn.Linear(4,128),
torch.nn.ReLU(),
torch.nn.Linear(128,2),
torch.nn.Softmax(dim=1),
)


def get_action(state):
state = torch.FloatTensor(state).reshape(1, 4)
prob = model(state)

prob_normalized = prob[0].tolist()
prob_sum = sum(prob_normalized)
prob_normalized = [p / prob_sum for p in prob_normalized]

action = np.random.choice(range(2), p=prob_normalized, size=1)[0]

return action

def get_Date():
states = []
rewards = []
actions = []

state = env.reset()

over = False
while not over:
action = get_action(state)
next_state,reward,over,_ = env.step(action)

states.append(state)
rewards.append(reward)
actions.append(action)

state = next_state

return states,rewards,actions

def test(play):
state = env.reset()

reward_sum = 0

over = False
while not over:
action = get_action(state)

state,reward,over,_ = env.step((action))
reward_sum +=reward

if play and random.random()<0.2:
display.clear_output(wait=True)
show()
plt.close()
return reward_sum

def train():
optimizer = torch.optim.Adam(model.parameters(),lr=1e-3)

#玩N局每局游戏训练一次
for epoch in range(1000):
states,rewards,actions = get_Date()

optimizer.zero_grad()

#反馈和
reward_sum = 0

#从最后一步算起
for i in reversed(range(len(states))):

#每往前一步,都衰减0.02,如何加上当前步的反馈
reward_sum *= 0.98
reward_sum += rewards[i]

#重新计算动作概率
state = torch .FloatTensor(states[i]).reshape(1,4)
prob = model(state)
prob = prob[0,actions[i]]

loss = -prob.log()*reward_sum

loss.backward(retain_graph=True)

optimizer.step()

if epoch%100==0:
test_result = sum([test(play=False) for _ in range(10)])/10
print(epoch,test_result)



train()
test(play=True)

标签:梯度,sum,state,Reinforce,action,强化,reward,prob
From: https://www.cnblogs.com/humanplug/p/17604087.html

相关文章

  • TabR:检索增强能否让深度学习在表格数据上超过梯度增强模型?
    这是一篇7月新发布的论文,他提出了使用自然语言处理的检索增强RetrievalAugmented技术,目的是让深度学习在表格数据上超过梯度增强模型。检索增强一直是NLP中研究的一个方向,但是引入了检索增强的表格深度学习模型在当前实现与非基于检索的模型相比几乎没有改进。所以论文作者提出......
  • 《Decision Transformer: Reinforcement Learning via Sequence Modeling》论文学习
    一、Introduction先前的研究工作表明,Transformer可以对处于高维分布的语义概念进行大规模建模抽象,比较典型地体现如:基于自然语言的零样本泛化(zero-shotgeneralization)分布外图像生成(out-of-distributionimagegeneration)鉴于此类模型在多个领域的成功应用,我们希望研究Tran......
  • PyTorch 中的多 GPU 训练和梯度累积作为替代方案
    动动发财的小手,点个赞吧!在本文中,我们将首先了解数据并行(DP)和分布式数据并行(DDP)算法之间的差异,然后我们将解释什么是梯度累积(GA),最后展示DDP和GA在PyTorch中的实现方式以及它们如何导致相同的结果。简介训练深度神经网络(DNN)时,一个重要的超参数是批量大小。通常,batchsi......
  • 梯度消失:深度学习的挑战
    介绍深度学习使计算机能够从大量数据中学习并做出复杂的决策,从而彻底改变了人工智能领域。这一成功在很大程度上归功于深度神经网络的发展,它能够从数据中学习分层表示。然而,这些网络面临着一个被称为“梯度消失”的重大挑战,这可能会阻碍它们的训练和表现。在本文中,我们将探讨梯度......
  • 强化学习——DQN算法
    1、DQN算法介绍DQN算与sarsa算法和Q-learning算法类似,对于sarsa和Q-learning,我们使用一个Q矩阵,记录所有的state(状态)和action(动作)的价值,不断学习更新,最后使得机器选择在某种状态下,价值最高的action进行行动。但是当state和action的数量特别大的时候,甚至有限情况下不可数时,这时候再......
  • Improved deep reinforcement learning for robotics through distribution-based exp
    发表时间:2016(IROS2016)文章要点:这篇文章提出了experiencereplay方法的改进,让experience的分布介于当前policy和均匀分布之间,作者做实验发现这个时候的效果是最好的(theidealdistributionislikelytobesomewherebetweenthedistributionthatresultsfromsimplyfollow......
  • nginx安全性:强化服务器配置
    nginx是最流行的Web服务器。它轻巧,快速,强大,并支持所有主要操作系统。它是Netflix,WordPress.com和其他高流量站点的首选Web服务器。Nginx服务器可以轻松地处理10,000个不活动的HTTP连接,而其内存只有2.5MB。在本文中,我们将提供有关nginx服务器安全性的提示,向您展示如何保护nginx安......
  • The importance of experience replay database composition in deep reinforcement l
    发表时间:2015(DeepReinforcementLearningWorkshop,NIPS2015)文章要点:这篇文章基于DDPG探索了buffer里面experience的组成对性能的影响。一个重要的观点是,次优的经验也是有利于训练的,少了这些experience会很大程度影响性能(theimportanceofnegativeexperiencesthatareno......
  • python强化训练手册
    Python强化训练手册1.介绍Python是一种高级编程语言,适用于多种领域,包括数据分析、机器学习、网络编程等。Python强化训练手册是为那些已经掌握基本Python语法的开发者提供的进阶指南。本手册将介绍一些高级的Python编程技巧和概念,以帮助开发者更好地利用Python的强大功能。2.......
  • 概述增强式学习(Reinforcement Learning)
    概述增强式学习(ReinforcementLearning)SupervisedLearning(自监督学习):告诉机器输入和输出,用有标注的训练资料训练出的NetworkReinforcementLearning(增强式学习):给机器一个输入,我们不知道最佳输出是什么(适用于标注困难或者人也不知道答案是什么)(机器需要知道什么是好,什么是......