\[\sum_{a\in A}\pi(a|s)\sum_{s^{\prime}\in S}P(s^{\prime}|s,a) \]\[\sum_{s^{\prime}\in S}\sum_{a\in A}\pi(a|s)P(s^{\prime}|s,a) \]
1、为什么两个求和符号后的表达式被允许先放在一起相乘:
独立求和的重要性
对于每个动作a,我们可以进行独立的计算(可以看作是对动作a 按顺序考虑所有的可能性集合,这也是求和的意义),即:
- 先固定a,计算\(\sum_{s^{\prime}\in S}P(s^{\prime}|s,a)\) ,即在固定动作下考虑所有的状态转移
- 然后用\(\pi(a|s)\) 进行加权,因为\(\pi(a|s)\)是选择这个动作的概论
这里样的话,就可以理解为什么可以进行变换了
2、什么情况下这两个求和符号后面的表达式不能放在一起相乘
-
相互依赖(依赖复杂性):当内外层的求和表达式不是独立的,导致不能直接将乘积的各部分分离出来单独求和。即两个求和符号后面的部分并不是可以独立处理的,求和出的项相互依赖。
假设π(a∣s,s′)和P(s′∣s,a).
不能简单地将这两个部分分离出来独立相乘。这是因为其中一部分的值取决于另一部分 -
涉及条件相关性:这种情况下,多个项之间存在复杂的条件关系,导致直接相乘没有意义。简单的独立相加相乘法则不再适用。
例如:π(a∣s)=f(a,s′)⋅P(s′∣s,a)