RLChina2022

2023-07-17RLChina2022公开课-博弈搜索算法
序列决策序列决策问题一般用马尔可夫决策模型进行描述搜索算法的优化
2023-07-17RLChina2022公开课-博弈论
纯博弈：单纯的动机组合，离散的集合混合博弈：加入了概率论，以百分比的概率执行不同的的动机。，概率分布零和博弈、合作博弈、协同博弈扩展博弈和非完美信息扩展博弈、贝叶斯博弈纳什均衡任何一位玩家在此策略组合下单方面改变自己的策略（其他玩家策略不变）都不会提高自身的收益。
2023-07-17RLChina2022-实践课三：强化学习算法
MDP算法MDP被定义为一个元组(S,A,P,r,R)S:所有状态集合A:在环境力里面智能体所作动作的集合P:状态转移函数P(s'|s,a)，智能体在当前s下，执行a之后，转移到是s'的概率R:奖励函数R(s,a),表示在环境s下执行动作a之后获得的立即奖励，有时候还需要知道s'是多少才能共同决定奖励是多少。