• 2024-06-06西湖大学赵世钰老师【强化学习的理论基础】02基本概念
    文章目录概念介绍state(状态)Action(动作)Statetransition(状态转移)Policy(策略)reward(奖励)Trajectory(轨迹)andreturnDiscountedreturn(折扣回报)Episode(回合)一般是有终止点的轨迹Markovdecisionprocess(MDP)-一个对应三个单词的过程要素马尔可夫的过程概念介绍例子:网格