课程描述
这是一门关于不确定条件下强化学习和顺序决策的入门课程,重点在于理解理论基础。我们研究如何使用价值和策略迭代等动态规划方法来解决具有已知模型的顺序决策问题,以及如何扩展这些方法来解决模型未知的强化学习问题。其他主题包括,RL中的函数逼近、策略梯度方法、基于模型的RL,以及探索和应用权衡。本课程将结合课堂讲授和学生阅读的经典和近期论文来讲授。由于重点是理解基础,你应该期望通过数学细节和证明。本课程的必修背景包括熟悉概率论和统计学、微积分、线性代数、最优化和(有监督的)机器学习。
课程大纲
课程视频截图