强化学习代码实战-07 ERINFORCEMENT 算法

时间：2022-11-15 18:58:06浏览次数：49

标签：rewards 07 sum torch state 算法 action reward ERINFORCEMENT

基于策略的学习方法：直接显示地学习一个目标策略
策略梯度基于策略的方法基础
基于策略的学习方法：寻找最优策略并最大化这个策略在环境的期望回报
让策略更多地采样到带来较高Q值的动作

import random
import gym
import torch
import numpy as np
from matplotlib import pyplot as plt
from IPython import display

env = gym.make("CartPole-v0")
# 智能体状态
state = env.reset()
# 动作空间
actions = env.action_space.n
print(state, actions)


# 定义模型
model = torch.nn.Sequential(
    torch.nn.Linear(4, 128),
    torch.nn.ReLU(),
    torch.nn.Linear(128,2),
    torch.nn.Softmax(dim=1),)

# 得到一个动作
def get_action(state):
    state = torch.FloatTensor(state).reshape(1, 4)
    prob = model(state)
    # 根据概率选择一个动作
    action = random.choices(range(2), weights=prob[0].tolist(), k=1)[0]
    return action

# 得到一局游戏的数据
def get_data():
    states = []
    actions = []
    rewards = []
    
    state = env.reset()
    done = False
    while not done:
        # 获得一个动作
        action = get_action(state)
        # 执行动作，得到反馈
        next_state, reward, done, _ = env.step(action)
        # 存储数据
        states.append(state)
        actions.append(action)
        rewards.append(reward)
        
        state = next_state
        
    return states, actions, rewards

def test():
    state = env.reset()
    rewards_sum = 0
    done = False
    
    while not done:
        action = get_action(state)
        state, reward, done, _ = env.step(action)    # 这里的错误排除了一天
        rewards_sum += reward
    return rewards_sum

def train():
    optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
    
    # 玩N局游戏，每局游戏训练一次（在线学习算法）
    for epoch in range(1000):
        states, actions, rewards = get_data()
        optimizer.zero_grad()
        # 计算奖励和
        reward_sum = 0
        
        # 计算各个时刻回报，从最后一步算起
        for i in reversed(range(len(states))):
            # 奖励的和，从最后一步算起。每往前一步，“和”就衰减0.02，再加上当前步骤的奖励
            reward_sum *= 0.98
            reward_sum += rewards[i]
            # 重新计算该状态下动作的概率(由于前期采样，状态对应的动作已知，模型就要学习这个得分)
            state = torch.FloatTensor(states[i]).reshape(1, 4)
            prob = model(state)
            prob = prob[0, actions[i]]
            
            # 互熵损失
            loss = -prob.log() * reward_sum
            # 累积梯度(参数为True，数值不清除)
            loss.backward(retain_graph=True)
        optimizer.step()
        
        if epoch % 100 == 0:
            test_result = sum([test() for _ in range(50)]) / 50
            print(epoch, test_result)

标签：rewards,07,sum,torch,state,算法,action,reward,ERINFORCEMENT
From： https://www.cnblogs.com/demo-deng/p/16893502.html

07基础元器件-压敏电阻
一、原理压敏电阻的工作原理：压敏电阻相当于一个可变电阻，它是并联于电路中。当电路正常工作时，它的阻抗很大，漏电流很小，相当于开路，对电路几乎没有影响。但当一个很高的突......
道长的算法笔记：基础最短路模型
#include<bits/stdc++.h>usingnamespacestd;typedefpair<int,int>ii;//移动轨迹向量化intadd[3]={+1,-1,0};intmul[3]={0,0,1};intvist[10000......
SpringBoot 07: springboot中使用dubbo
公共接口项目独立的maven项目：定义了接口和数据类数据类kagecom.example.dubbo.model;importjava.io.Serializable;publicclassStudentimplementsSeria......
数据分享|R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病|附代码
全文链接：http://tecdat.cn/?p=23061这个数据集可以追溯到1988年，由四个数据库组成。克利夫兰、匈牙利、瑞士和长滩。"目标"字段是指病人是否有心脏病。它的数值为整数，0=无......
ARMA-EGARCH模型、集成预测算法对SPX实际波动率进行预测|附代码数据
全文下载链接：http://tecdat.cn/?p=12174本文比较了几个时间序列模型，以预测SP500指数的每日实际波动率。基准是SPX日收益序列的ARMA-EGARCH模型。将其与GARCH模型进行比较......
基于遗传算法的电动汽车有序充放电优化问题（附matlab源码）
为了减小电动汽车规模化充电给配电网安全稳定运行带来的不利影响，提出一种基于遗传算法的电动汽车有序充电策略。考虑用户出行规律及保证配电网的安全稳定运行，以......
基于遗传算法的电动汽车规划
建立电动汽车概率出行模型，该模型考虑了路网、排队时间等，以投资成本和时间成本最优为目标，优化电动汽车的建设位置，采用基因遗传算法求解。内附参考文献 ......
隐私计算开源框架「隐语SecretFlow」分层拆解和联邦学习算法使用
本文首发于微信公众号：隐语的小剧场一、“隐语”架构设计全貌1.隐语框架设计思想隐私计算是一个新兴的跨学科领域，涉及密码学、机器学习、数据库、硬件等多个领域。根据......
009网页状态码302和307的区别
状态码307与302之间的唯一区别在于，当发送重定向请求的时候，307状态码可以确保请求方法和消息主体不会发生变化 ......
剑指offer——Day06搜索与回溯算法（简单）
Day62022.11.12搜索与回溯算法（简单）32.Ⅰ.从上到下打印二叉树自己实现用队列来实现。将当前节点的值打印后向queue中push它的左右非NULL儿子节点，并将该节点pop出去代......

强化学习代码实战-07 ERINFORCEMENT 算法

相关文章

赞助商

阅读排行