首页 > 其他分享 >【RL】L7-Temporal-difference learning

【RL】L7-Temporal-difference learning

时间:2023-08-13 16:56:33浏览次数:34  
标签:right Temporal L7 state learning RL ldots left

TD learning of state values

The data/experience required by the algorithm:

  • \(\left(s_0, r_1, s_1, \ldots, s_t, r_{t+1}, s_{t+1}, \ldots\right)\) or \(\left\{\left(s_t, r_{t+1}, s_{t+1}\right)\right\}_t\) generated following the given policy \(\pi\).

The TD learning algorithm is

\[\begin{aligned} & v_{t+1}\left(s_t\right)=v_t\left(s_t\right)-\alpha_t\left(s_t\right)\left[v_t\left(s_t\right)-\left[r_{t+1}+\gamma v_t\left(s_{t+1}\right)\right]\right], \\ & v_{t+1}(s)=v_t(s), \quad \forall s \neq s_t \end{aligned} \]

where \(t=0,1,2, \ldots\) Here, \(v_t\left(s_t\right)\) is the estimated state value of \(v_\pi\left(s_t\right)\); \(\alpha_t\left(s_t\right)\) is the learning rate of \(s_t\) at time \(t\).

s: state space

标签:right,Temporal,L7,state,learning,RL,ldots,left
From: https://www.cnblogs.com/tuyuge/p/17626795.html

相关文章

  • 无涯教程-Perl - recv函数
    描述ThisfunctionreceivesamessageonSOCKETattemptingtoreadLENGTHbytes,placingthedatareadintovariableSCALAR.TheFLAGSargumenttakesthesamevaluesastherecvfrom()systemfunction,onwhichthefunctionisbased.Whencommunicatingwith......
  • 【RL】CH2-Bellman equation
    thediscountedreturn\[\begin{aligned}G_t&=R_{t+1}+\gammaR_{t+2}+\gamma^2R_{t+3}+\ldots\\&=R_{t+1}+\gamma\left(R_{t+2}+\gammaR_{t+3}+\ldots\right)\\&=R_{t+1}+\gammaG_{t+1}\end{aligned}\]state-valuefunction/the......
  • 38 pinctrl(四)pinctrl driver
    前言一些使用技巧查看设备支持的pinctrlls/sys/kernel/debug/pinctrl/查看pinctrl中支持的引脚、组、functioncat/sys/kernel/debug/pinctrl/20e0000.iomuxc/pinscat/sys/kernel/debug/pinctrl/20e0000.iomuxc/pingroupscat/sys/kernel/debug/pinctrl/20e0000.io......
  • 无涯教程-Perl - readpipe函数
    描述该函数将EXPR作为命令执行。然后,将输出作为标量文本中的多行字符串返回,或者将行作为列表context中的单个元素返回。语法以下是此函数的简单语法-readpipeEXPR返回值此函数在标量context中返回String,在列表context中返回List。例以下是显示其基本用法的示例代码......
  • 【RL】CH1-Basic Concepts
    1.7MarkovdecisionprocessesThissectionpresentstheseconceptsinamoreformalwayundertheframeworkofMarkovdecisionprocesses(MDPs).AnMDPisageneralframeworkfordescribingstochasticdynamicalsystems.ThekeyingredientsofanMDParel......
  • 无涯教程-Perl - readlink函数
    描述此函数返回链接EXPR指向的文件的路径名;如果未指定EXPR,则返回$_语法以下是此函数的简单语法-readlinkEXPRreadlink返回值该函数在出错时返回undef,否则返回文件的路径名。例以下是显示其基本用法的示例代码-#!/usr/bin/perl-w#assume/tmp/testisasymb......
  • 无涯教程-Perl - quotemeta函数
    描述此函数转义EXPR中的所有元字符。例如,quotemeta("AB*..C")返回"'AB\*\。\。C"。语法以下是此函数的简单语法-quotemetaEXPR返回值此函数返回一个字符串,其中所有元字符均已转义。例以下是显示其基本用法的示例代码-#!/usr/bin/perl-wprintquotemeta("AB......
  • 无涯教程-Perl - push函数
    描述此函数将LIST中的值压入列表ARRAY的末尾。与pop一起使用以实现堆栈。语法以下是此函数的简单语法-pushARRAY,LIST返回值此函数返回新数组中的元素数。例以下是显示其基本用法的示例代码-#!/usr/bin/perl-w$,=",";@array=(1,2);print"Beforepushinge......
  • 无涯教程-Perl - printf函数
    描述此函数将通过FORMAT指定的格式打印的LIST值打印到当前输出文件句柄或FILEHANDLE指定的句柄。有效等效于打印FILEHANDLEsprintf(FORMAT,LIST)如果不需要特定的输出格式,则可以使用print代替printf。以下是可接受的格式转换列表。Sr.No.Format&Result%%百分号......
  • Linux下C语言调用libcurl库获取天气预报信息
    一、概述当前文章介绍如何在Linux(Ubuntu)下使用C语言调用libcurl库获取天气预报的方法。通过HTTPGET请求访问百度天气API,并解析返回的JSON数据,可以获取指定城市未来7天的天气预报信息。二、设计思路【1】使用libcurl库进行HTTPGET请求在代码中包含<curl/curl.h>头文件,以便使用libc......