1. 贝尔曼最优公式:
1.1 定义:
第2课介绍了贝尔曼公式,里面的\(\pi (a|s)\)策略是固定的,这里我们想求得一个最优的策略,使得state value最好
1.2 matrix-vector form:
2. 求解贝尔曼公式:
公式中,v是一个未知量,\(\pi\)也是要求解的最优策略。
假设a有5个action,
2.1 Contraction mapping theorem:
example:
theorem:
2.2 应用这个定理求解:
运用定理知道,一定存在一个解,并且这个解是唯一的,而且这个解可以通过迭代的方式进行。