策略价值函数求解
策略价值函数 V π ( s ) V^\pi(s) Vπ(s) 表示在策略 π \pi π 下,从状态 s s s 开始并遵循该策略所能获得的期望回报(Gt 是在时间 t 的回报)。根据贝尔曼方程(Bellman Equation),状态价值函数可以展开为:
V π ( s ) = E [ G t ∣ S t = s ] = E [ R t + 1 + γ G t + 1 ∣ S t = s ] V^\pi(s) = E[G_t | S_t = s] = E[R_{t+1} + \gamma G_{t+1} | S_t = s] Vπ(s)=E[Gt∣St=s]=E[Rt+1+γGt+1∣St=s]
进一步展开,我们得到策略价值函数的迭代方程:
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) [ R ( s , a ) + ∑ s ′ ∈ S P ( s ′ ∣ s , a ) V π ( s ′ ) ] V^\pi(s) = \sum_{a \in \mathcal{A}} \pi(a|s) \left[ R(s, a) + \sum_{s' \in \mathcal{S}} P(s' | s, a) V^\pi(s') \right] Vπ(s)=a∈A∑π(a∣s)[R(s,a)+s′∈S∑P(s′∣s,a)Vπ(s′)]
这个方程表明,状态 s s s 的价值是所有可能动作 a a a 的加权和,其中权重由策略 π \pi π 决定,以及每个动作对应的即时奖励和转移到新状态 s ′ s' s′ 的概率,以及新状态的价值。
动作价值函数求解
动作价值函数 Q π ( s , a ) Q^\pi(s, a) Qπ(s,a) 表示在策略 π \pi π 下,从状态 s s s 开始执行动作 a a a 并随后遵循策略所能获得的期望回报。根据贝尔曼方程,动作价值函数可以展开为:
Q π ( s , a ) = E [ G t ∣ S t = s , A t = a ] Q^\pi(s, a) = E[G_t | S_t = s, A_t = a] Qπ(s,a)=E[Gt∣St=s,At=a]
展开后得到动作价值函数的迭代方程:
Q π ( s , a ) = ∑ s ′ ∈ S P ( s ′ ∣ s , a ) [ R ( s , a ) + γ ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) ] Q^\pi(s, a) = \sum_{s' \in \mathcal{S}} P(s' | s, a) \left[ R(s, a) + \gamma \sum_{a' \in \mathcal{A}} \pi(a'|s') Q^\pi(s', a') \right] Qπ(s,a)=s′∈S∑P(s′∣s,a)[R(s,a)+γa′∈A∑π(a′∣s′)Qπ(s′,a′)]
这个方程表明,状态-动作对 ( s , a ) (s, a) (s,a) 的价值是转移到新状态 s ′ s' s′ 的概率以及新状态和新动作 a ′ a' a′ 的价值的加权和,其中权重由策略 π \pi π 决定。
主要区别
- 策略依赖性:策略价值函数 V π ( s ) V^\pi(s) Vπ(s) 直接依赖于策略 π \pi π,因为它考虑的是在给定策略下从状态 s s s 开始的回报。而动作价值函数 Q π ( s , a ) Q^\pi(s, a) Qπ(s,a) 也依赖于策略,但它更关注于在给定状态下执行特定动作 ( a ) 的回报。
- 动作的考虑:动作价值函数 Q π ( s , a ) Q^\pi(s, a) Qπ(s,a) 明确考虑了动作 a a a,而策略价值函数 V π ( s ) V^\pi(s) Vπ(s) 是对所有可能动作的期望回报的加权和。
- 优化应用:动作价值函数常用于寻找最优策略,因为它提供了关于在特定状态下采取特定动作的价值信息,可以用于改进策略。
结论
策略价值函数和动作价值函数都是评估和改进策略的重要工具。策略价值函数提供了在给定策略下从特定状态出发的长期价值评估,而动作价值函数则提供了在给定状态下执行特定动作的回报评估,有助于指导策略的优化。
标签:状态,价值,函数,动作,pi,策略 From: https://blog.csdn.net/qq_44154915/article/details/139150541