强化学习中的理论分析可以分为两种,第一种就是完全的理论模型推导;第二种则是举个例子,用一个自我构造出的MDP过程来作为说明的例子,然后根据这个例子推导出的效果来说明理论有效性,这其中可以包括收敛性证明,相同最优策略证明,等等。
这两种理论证明的方式看似第一种比第二种更高大上,更靠谱,实际上二者的实际效果都差不多。由于强化学习算法本身的理论难度和工程难度都比较高,因此理论分析出的模型往往在实际的效果都有限。举个例子说明:在策略梯度定理中,我们可以看到策略的梯度是根据整体全部样本的折扣分布概率来进行计算的,但是除了在基于表格的强化学习问题以外是不可能有那个问题是可以对所有样本进行全部采样的,因此在实际的基于函数近似的强化学习算法中我们对样本的采样概率是不作任何处理的,也就是说所有的参加计算的样本均不带有任何概率项(不乘以任何概率项,或者理解为相乘的概率值为1)。
标签:概率,模型,样本,学习,例子,差距,强化,理论 From: https://www.cnblogs.com/xyz/p/18450802