HW3
  • 2024-06-11AML HW3
    1.完成value_iteration函数,实现值迭代算法根据Bellman最优方程,我们可以得到如下的公式:\[V^*(s)=\max_a\sum_{s'}T(s,a,s')[R(s,a,s')+\gammaV^*(s')]=\max_aQ^*(s,a)\]可以将其写成迭代更新的方式\[V_{k+1}(s)=\max_a\sum_{s'}T(s,a,s')[R(