首页 > 其他分享 >博弈论

博弈论

时间:2022-12-08 12:05:44浏览次数:56  
标签:博弈 策略 博弈论 均衡 纳什 局中人


博弈论,有时也称为对策论,或者赛局理论,​​应用数学​​​的一个分支,目前在​​生物学​​​、​​经济学​​​、​​国际关系​​​、​​计算机科学​​​、​​政治学​​​、​​军事战略​​和其他很多学科都有广泛的应用。主要研究公式化了的激励结构(游戏或者博弈)间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是​​运筹学​​的一个重要学科。

博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。表面上不同的相互作用可能表现出相似的激励结构(incentive structure),所以他们是同一个游戏的特例。其中一个有名有趣的应用例子是​​囚徒困境​​(Prisoner's dilemma)。

具有竞争或对抗性质的行为成为博弈行为。在这类行为中,参加斗争或竞争的各方各自具有不同的目标或利益。为了达到各自的目标和利益,各方必须考虑对手的各种可能的行动方案,并力图选取对自己最为有利或最为合理的方案。比如日常生活中的下棋,打牌等。博弈论就是研究博弈行为中斗争各方是否存在着最合理的行为方案,以及如何找到这个合理的行为方案的数学理论和方法。


基本概念

  (1) ​​决策人​

:在博弈中率先作出决策的一方,这一方往往依据自身的感受、经验和表面状态优先采取一种有方向性的行动。

  (2) ​​对抗者​

:在博弈二人对局中行动滞后的那个人,与决策人要作出基本反面的决定,并且他的动作是滞后的、默认的、被动的,但最终占优。他的策略可能依赖于决策人劣势的策略选择,占去空间特性,因此对抗是唯一占优的方式,实为领导人的阶段性终结行为。

  (3) ​​局中人​

(players):在一场竞赛或博弈中,每一个有决策权的参与者成为一个局中人。只有两个局中人的博弈现象称为“两人博弈”,而多于两个局中人的博弈称为 “多人博弈”。

  (4)策略(strategies):一局博弈中,每个局中人都有选择实际可行的完整的行动方案,即方案不是某阶段的行动方案,而是指导整个行动的一个方案,一个局中人的一个可行的自始至终全局筹划的一个行动方案,称为这个局中人的一个策略。如果在一个博弈中局中人都总共有有限个策略,则称为“有限博弈”,否则称为“无限博弈”。

  (5)得失(payoffs):一局博弈结局时的结果称为得失。每个局中人在一局博弈结束时的得失,不仅与该局中人自身所选择的策略有关,而且与全局中人所取定的一组策略有关。所以,一局博弈结束时每个局中人的“得失”是全体局中人所取定的一组策略的函数,通常称为支付(payoff)函数。

  (6)次序(orders):各博弈方的决策有先后之分,且一个博弈方要作不止一次的决策选择,就出现了次序问题;其他要素相同次序不同,博弈就不同。

  (7)博弈涉及到均衡:均衡是平衡的意思,在经济学中,均衡意即相关量处于稳定值。在供求关系中,某一 ​​商品市场​

如果在某一价格下,想以此价格买此商品的人均能买到,而想卖的人均能卖出,此时我们就说,该商品的供求达到了均衡。所谓纳什均衡,它是一稳定的博弈结果。

  纳什均衡(Nash Equilibrium):在一策略组合中,所有的参与者面临这样一种情况,当其他人不改变策略时,他此时的策略是最好的。也就是说,此时如果他改变策略他的支付将会降低。在 ​​纳什均衡点​

上,每一个理性的参与者都不会有单独改变策略的冲动。纳什均衡点存在性证明的前提是“博弈均衡偶”概念的提出。所谓“均衡偶”是在二人 ​​零和博弈​

中,当局中人A采取其最优策略a*,局中人B也采取其最优策略b*,如果局中人B仍采取b*,而局中人A却采取另一种策略a,那么局中人A的支付不会超过他采取原来的策略a*的支付。这一结果对局中人B亦是如此。

  这样,“均衡偶”的明确定义为:一对策略a*(属于策略集A)和策略b*(属于策略集B)称之为均衡偶,对任一策略a(属于策略集A)和策略b(属于策略集B),总有:偶对(a, b*)≤偶对(a*,b*)≥偶对(a*,b)。

  对于 ​​非零和博弈​

也有如下定义:一对策略a*(属于策略集A)和策略b*(属于策略集B)称为非零和博弈的均衡偶,对任一策略a(属于策略集A)和策略 b(属于策略集B),总有:对局中人A的偶对(a, b*) ≤偶对(a*,b*);对局中人B的偶对(a*,b)≤偶对(a*,b*)。

  有了上述定义,就立即得到 ​​纳什定理​


  任何具有有限纯策略的二人博弈至少有一个均衡偶。这一均衡偶就称为纳什均衡点。

  纳什定理的严格证明要用到不动点理论,不动点理论是 ​​经济均衡​

研究的主要工具。通俗地说,寻找均衡点的存在性等价于找到博弈的不动点。

  纳什均衡点概念提供了一种非常重要的分析手段,使博弈论研究可以在一个博弈结构里寻找比较有意义的结果。

  但纳什均衡点定义只局限于任何局中人不想单方面变换策略,而忽视了其他局中人改变策略的可能性,因此,在很多情况下,纳什均衡点的结论缺乏说服力,研究者们形象地称之为“天真可爱的纳什均衡点”。

  塞尔顿(R·Selten)在多个均衡中剔除一些按照一定规则不合理的均衡点,从而形成了两个均衡的精炼概念:子博弈完全均衡和颤抖的手完美均衡。


博弈类型

  博弈的分类根据不同的基准也有不同的分类。一般认为,博弈主要可以分为 ​​合作博弈​

和非合作博弈。 合作博弈和非合作博弈的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议,如果有,就是合作博弈,如果没有,就是非合作博弈。

  从行为的时间序列性,博弈论进一步分为静态博弈、 ​​动态博弈​

两类: 静态博弈是指在博弈中,参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动;

  动态博弈是指在博弈中,参与人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。通俗的理解:"囚徒困境"就是同时决策的,属于静态博弈;而棋牌类游戏等决策或行动有先后次序的,属于动态博弈

  按照参与人对其他参与人的了解程度分为 ​​完全信息博弈​

和 ​​不完全信息博弈​

。 完全博弈是指在博弈过程中,每一位参与人对其他参与人的特征、 ​​策略空间​

及收益函数有准确的信息。

  不完全信息博弈是指如果参与人对其他参与人的特征、策略空间及收益函数信息了解的不够准确、或者不是对所有参与人的特征、策略空间及收益函数都有准确的信息,在这种情况下进行的博弈就是不完全信息博弈。

  目前经济学家们现在所谈的博弈论一般是指非合作博弈,由于 ​​合作博弈论​

比非合作博弈论复杂,在理论上的成熟度远远不如非合作博弈论。非合作博弈又分为:完全信息静态博弈,完全信息动态博弈,不完全信息静态博弈,不完全信息动态博弈。与上述四种博弈相对应的均衡概念为:纳什均衡(Nash equilibrium), ​​子博弈精炼纳什均衡​

(subgame perfect Nash equilibrium), ​​贝叶斯纳什均衡​

(Bayesian Nash equilibrium),精炼贝叶斯纳什均衡(perfect Bayesian Nash equilibrium)。

  博弈论还有很多分类,比如:以博弈进行的次数或者持续长短可以分为有限博弈和无限博弈;以表现形式也可以分为一般型(战略型)或者展开型,等等。


纳什均衡

定义

  纳什均衡的定义:在博弈G=﹛S1,…,Sn:u1,…,un﹜中,如果由各个博弈方的各一个策略组成的某个策论组合(s1*,…,sn*)中,任一博弈方i的策论si*,都是对其余博弈方策略的组合(s1*,…s*i-1,s*i+1,…,sn*)的最佳对策,也即ui(s1*,…s*i-1,si*,s*i+1,…,sn*)≥ui(s1*,…s*i-1,sij*,s*i+1,…,sn*)对任意sij∈Si都成立,则称(s1*,…,sn*)为G的一个纳什均衡。

  假设有n个局中人参与博弈,给定其他人策略的条件下,每个局中人选择自己的最优策略(个人最优策略可能依赖于也可能不依赖于他人的战略),从而使自己利益最大化。所有局中人策略构成一个策略 ​​组合​

(Strategy Profile)。纳什均衡指的是这样一种战略组合,这种策略组合由所有参与人最优策略组成。即在给定别人策略的情况下,没有人有足够理由打破这种均衡。纳什均衡,从实质上说,是一种非合作博弈状态。

纳什均衡达成时,并不意味着博弈双方都处于不动的状态,在顺序博弈中这个均衡是在博弈者连续的动作与反应中达成的。纳什均衡也不意味着博弈双方达到了一个整体的最优状态,以下的囚徒困境就是一个例子。

案例-囚徒困境

  在博弈论中,含有占优战略均衡的一个著名例子是由 ​​塔克​

给出的“囚徒困境”( prisoner's dilemma

)博弈模型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故事。假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果两个犯罪嫌疑人都坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪,各被判刑8年;如果只有一个犯罪嫌疑人坦白,另一个人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。下表给出了这个博弈的 ​​支付矩阵​


   囚徒困境博弈 [Prisoner's dilemma]

A╲B

坦白

抵赖

坦白

-8,-8

0,-10

抵赖

-10,0

-1,-1

对A来说,尽管他不知道B作何选择,但他知道无论B选择什么,他选择“坦白”总是最优的。显然,根据对称性,B也会选择“坦白”,结果是两人都被判刑8年。但是,倘若他们都选择“抵赖”,每人只被判刑1年。在表2.2中的四种行动选择组合中,(抵赖、抵赖)是 ​​帕累托最优​

的,因为偏离这个行动选择组合的任何其他行动选择组合都至少会使一个人的境况变差。不难看出,“坦白”是任一犯罪嫌疑人的占优战略,而(坦白,坦白)是一个占优战略均衡。

标签:博弈,策略,博弈论,均衡,纳什,局中人
From: https://blog.51cto.com/u_5488952/5920848

相关文章

  • 博弈论与强化学习——基础1 扩展型博弈
    博弈论与强化学习——基础1扩展型博弈表示形式——博弈树使用树状图来表示行动的次序和执行动作时的信息状态图中有两个参与者,进行了两个阶段的博弈结点:表示博......
  • 博弈论与强化学习 一 Minimax Q, Nash Q ,FFQ
    博弈解与强化学习二基础算法2.1引言一个随机博弈可以看成是一个多智能体强化学习过程,但其实这两个概念不能完全等价,随机博弈中假定每个状态的奖励矩阵是已知的,不需要......
  • 博弈论扩展 CFR算法 一 基本概念
    扩展扩展性博弈与CFR算法目录扩展扩展性博弈与CFR算法CFR算法的发展算法应用强化学习的结合学习资料:扩展型博弈——知识回顾表示形式——博弈树信息集informati......
  • 博弈论练习8 Northcott Game(取石子问题)
    题目链接在这里:​​I-NorthcottGame_牛客竞赛博弈专题班组合游戏基本概念、对抗搜索、Bash游戏、Nim游戏习题(nowcoder.com)​​这题是一个伪装的很好的取石子问题,可以发......
  • 博弈论练习5 小牛再战(取石子问题)
    题目链接在这里:​​F-小牛再战_牛客竞赛博弈专题班组合游戏基本概念、对抗搜索、Bash游戏、Nim游戏习题(nowcoder.com)​​这是比较经典的巴什博奕问题,在博弈论中想到的第......
  • 博弈论练习3 Palindrome Game (hard version) (人类智慧题)
    题目链接在这里:​​C-PalindromeGame(hardversion)_牛客竞赛博弈专题班组合游戏基本概念、对抗搜索、Bash游戏、Nim游戏习题(nowcoder.com)​​这题挺人类智慧的,但是也......
  • 博弈论练习8 Northcott Game(取石子问题)
    题目链接在这里:I-NorthcottGame_牛客竞赛博弈专题班组合游戏基本概念、对抗搜索、Bash游戏、Nim游戏习题(nowcoder.com)这题是一个伪装的很好的取石子问题,可以发现,一个......
  • 博弈论练习7 栗酱的异或和(取石子问题)
    题目链接在这里:我们首先想到经典的取石子问题,考虑的是所有石子堆异或起来是不是0,如果为0就说明先手必败。这里面的逻辑和上一篇总结的博弈论基本规律是一样的,因为异或是相......
  • 博弈论练习5 小牛再战(取石子问题)
    题目链接在这里:F-小牛再战_牛客竞赛博弈专题班组合游戏基本概念、对抗搜索、Bash游戏、Nim游戏习题(nowcoder.com)这是比较经典的巴什博奕问题,在博弈论中想到的第一个操......
  • 博弈论练习4 Calendar Game(SG函数)
    题目链接在这里:D-CalendarGame_牛客竞赛博弈专题班组合游戏基本概念、对抗搜索、Bash游戏、Nim游戏习题(nowcoder.com)这题网上有关于奇偶性来找规律的做法,有点人类智慧......