强化学习代码实战-04时序差分算法（Q-learning）

时间：2022-11-11 16:12:40浏览次数：45

标签：return 04 差分 next learning action reward col row

On-policy 和 Off-policy 差异，更新量方式不同

Q-learning是srasa的改进版，效果要更好更实用，从悬崖问题中看出，Q-learning智能体可以贴着悬崖达到目标点（而saras总是离悬崖最远走）

离线策略所需的训练数据并不一定是当前策略采样得到，离线策略算法能够重复使用过往训练样本，往往具有更小的样本复杂度，也因此更受欢迎。

import numpy as np
import random

# 获取一个格子的状态
def get_state(row, col):
    if row!=3:
        return 'ground'
    if row == 3 and col == 11:
        return 'terminal'
    if row == 3 and col == 0:
        return 'ground'
    return 'trap'

# 在某一状态下执行动作,获得对应奖励
def move(row, col, action):
    # 状态检查-进入陷阱或结束，则不能执行任何动作，获得0奖励
    if get_state(row, col) in ["trap", "terminal"]:
        return row, col, 0
    # 执行上下左右动作后，对应的位置变化
    if action == 0:
        row -= 1
    if action == 1:
        row += 1
    if action == 2:
        col -= 1
    if action == 3:
        col += 1
    # 最小不能小于零，最大不能大于3
    row = max(0, row)
    row = min(3, row)
    col = max(0, col)
    col = min(11, col)
    
    # 掉进trap奖励-100，其余每走一步奖励-1，让agent尽快完成任务
    reward = -1
    if get_state(row, col) == 'trap':
        reward = -100
    return row, col, reward

# 初始化Q表格，每个格子采取每个动作的分数，刚开始都是未知的故为零
Q = np.zeros([4, 12, 4])

# 根据当前所处的格子，选取一个动作
def get_action(row, col):
    # 以一定的概率探索
    if random.random() < 0.1:
        return np.random.choice(range(4))
    # 返回当前Q表格中分数最高的动作
    return Q[row, col].argmax()
    
# 计算当前格子的更新量(当前格子采取动作后获得的奖励，来到下一个格子及要进行的动作)
def update(row, col, action, reward, next_row, next_col):
    """计算量更新同srasa有差异
        Saras: 估计当前贪婪策略的价值函数Q[row, col, action]（在线策略）
        Q-learning: 直接估计最优Q[row, col]（离线策略）
        在线策略：行为策略和目标策略是同一个策略
        离线策略：---------------不是同一个策略
    """
    target = reward + Q[next_row, next_col].max() * 0.95
    value = Q[row, col, action]
    # 时序查分计算td_error
    td_error = 0.1 * (target - value)
    # 返回误差值
    return td_error

def train():
    for epoch in range(10000):
        # 每次迭代开始，随机一个起点，尽可能多地与环境交互，同时绑定一个动作
        row = np.random.choice(range(4))
        col = 0
        action = get_action(row, col)
        # 计算本轮奖励的总和，越来越大
        rewards_sum = 0
        
        # 一直取探索，直到游戏结束或者进入trap(要判断)
        while get_state(row, col) not in ["terminal", "trap"]:
            # 当前状态下移动一次，获得新的状态
            next_row, next_col, reward = move(row, col, action)
            next_action = get_action(next_row, next_col)
            rewards_sum += reward
            # 获取此次移动的更新量
            td_error = update(row, col, action, reward, next_row, next_col)
            # 更新Q表格
            Q[row, col, action] += td_error
            # 状态更新
            row, col, action = next_row, next_col, next_action
        if epoch % 500 == 0:
            print(f"epoch:{epoch}, rewards_sum:{rewards_sum}")
train()

标签：return,04,差分,next,learning,action,reward,col,row
From： https://www.cnblogs.com/demo-deng/p/16880806.html

Multi-task Learning 理论(多任务学习)
一.多任务学习理论1.1多任务学习的定义如果有\(n\)个任务（传统的深度学习方法旨在使用一种特定模型仅解决一项任务），而这\(n\)个任务或它们的一个子集彼此相关但不完全相......
Ubuntu 20.04 Server 如何用命令行启用中文支持?
1.安装中文包sudoaptupdatesudoaptinstalllanguage-pack-zh-hans2.将区域语言设置为简体中文localectlset-localeLANG=zh_CN.utf83.重启系统sudoreboot......
04python基础知识02
这一篇文章主要介绍函数、模块、运行python文件等知识。函数函数犹如小程序，可以用来执行特定的操作。Python本身提供了很多函数，我们称这些函数为内置函数。内置函数可以......
Leetcode第1704题：判断字符串的两半是否相似（Determine is string halves are alike）
解题思路直接模拟。将字符串分为两半，分别遍历统计各元音出现的次数，最后比较是否相等即可。核心代码如下：boolhalvesAreAlike(strings){stringa=s.substr(......
Ubuntu 21.10 (Impish Indri) Reached End of Life, Upgrade to Ubuntu 22.04 LTS Now
https://9to5linux.com/ubuntu-21-10-impish-indri-reached-end-of-life-upgrade-to-ubuntu-22-04-lts-now......
1704. 判断字符串的两半是否相似
1704.判断字符串的两半是否相似classSolution{publicbooleanhalvesAreAlike(Strings){Set<Character>set=newHashSet<>();set.add('a'......
【Linux】Ubuntu 18.04 Python修改 pip源为阿里源
1.在home/用户名/目录下创建.pip文件夹cd~mkdir.pipcd~/.piptouchpip.conf2.编辑pip.conf文件,输入以下内容保存即可[global]trusted-host=mirrors.ali......
Little Girl and Maximum Sum CodeForces - 276C - 差分
给定一个数列\(a={a_1,a_2,...,a_n}\)以及\(q\)次查询。其中第\(i\)次查询如同：\(l_i,r_i\)，意指求\(\sum_{j=l_i}^{r_i}{a_j}\)。但是查询前可以对数列任意排......
1704. 判断字符串的两半是否相似
1704.判断字符串的两半是否相似给你一个偶数长度的字符串s。将其拆分成长度相同的两半，前一半为a，后一半为b。两个字符串相似的前提是它们都含有相同数目的元音（'a......
图学习初探Paddle Graph Learning 构建属于自己的图【系列三】
项目链接：https://aistudio.baidu.com/aistudio/projectdetail/5000517?contributionType=1如遇到问题查看原项目解决图学习温故以及初探PaddleGraphLearning(PGL)构建......

强化学习代码实战-04时序差分算法（Q-learning）

相关文章

赞助商

阅读排行