持续更新中
博弈论简述系列主要参考本校授课老师的PPT,相当于把老师的PPT简单过了一遍,加上自己的理解,但是个人觉得PPT内容系统结构不太行,后面有时间再慢慢调整。
没有什么技术性的内容,主要是简述。后面准备开一个系列,认真研读一下一些技术性的内容。
一、完美信息动态博弈
1、完美信息动态博弈的描述
静态博弈存在的问题:纳什均衡不唯一。 博弈树:用于表述动态博弈(Dynamic Games)或序贯行动博弈 Sequential-Move Games 博弈树的虚线:表示虚线以上是一个信息集。即虚线下面的人不知道虚线以上的信息,即他们不知道自己从哪来的。 关于完美信息和完全信息(多方参考,结合自己的理解): 完美信息:参与者在行动时知道过去所有人的所有行动信息。(在博弈树中,博弈的所有信息集都只包含一个决策结,即参与者知道自己怎么到达这个地方的,也就是说,没有虚线!)完全信息:所有人知道 彼此所有相关信息(收益函数),且所有人知道收益函数是公开的。
海萨尼转换:通过引入一个预先行动的自然,把不完全信息静态博弈,转化成一个不完美信息动态博弈。自然在所有参与者之前行动。自然随机/以一定概率决定参与者的类型。不知道其它参与者类型的不完全信息,被转换成:不知道自然的行动的不完美信息。
1.2子博弈精炼纳什均衡
(1)子博弈
1)从一个单点决策节 开始,之后的所有枝节包含其中 2)子博弈不能分割信息集 例1(虚线内部是一个子博弈): 例2:(2)不可置信承诺(或威胁)
考虑房地产开发博弈: 有两个子博弈 纳什均衡:(开发,{不开发,不开发}): B说:不管A是否开发,B均选择不开发。 但是在右侧的子博弈中,如果A选择不开发,开发上B的最优策略因该是开发,所以说B说的话不可信。因此,该纳什均衡不是右侧子博弈的纳什均衡。 被划去的是包含了不可置信的策 略 所构成 的N E,这些是不能作为模型预测结果的,必须 去除(3)子博弈精炼纳什均衡
在一个完美信息的动态博弈中,一个策略组合,满足在整个动态博弈及它的所有子博弈中都构成纳什均衡,即在所有子博弈中均达到收益最优。 注: 1)子博弈精炼纳什均衡能够排除均衡策略中不可信的威胁和承诺,因此是真正稳定的 2)子博弈精炼纳什均衡必须对博弈方在所有选择节点处的选择做出规定,包括最终不在均衡路径上的节点 3)求解方法:逆向归纳法1.3逆向归纳法
(1)概念:顾名思义,倒推,从最后一个开始往前推。 (2)举例:海盗分赃 问题: 5个海盗抢到了100颗相同的宝石,经商议,他们决定将宝石这样分: 1)抽签决定自己的号码1,2,3,4,5 2)首先,由1号提出分配方案,然后5人进行表决,如果同意这种方案的人达到半数,就按照1号的提案进行分配,否则,他将被扔入大海喂鲨鱼,然后由接下来的人继续重复提议,没提议的人作出表决。 假设每个海盗都是绝顶聪明且自私,也不互相合作,1号海盗如何提议? 解:由逆向归纳法,先从5号开始: 5号:分自己100,不需要其他任何人同意 4号:分自己100,自己赞同,5号得0,反对无用 3号:分5号1枚并得到5号的同意;分自己99,自己同意;4号得0枚,反对无用(分析:如果这里分给4号1枚,他肯定还是反对,所以不分给他,分给5号1枚,若5号反对,那么就到了4号提议的情形,5号将一无所获,所以前面给他的当然美美接受啦,后面的分析也是如此,就不赘述了) 2号:分给4号1枚,得到4号的同意;分给自己99枚,自己同意;3、5号反对无用 1号:分给3、5号海盗各1枚,获得3、5号的同意;分给自己98枚,自己同意;分给2、4号海盗0枚,反对无作用 均衡结果是(98,0,1,0,1)二、经典动态博弈模型
2.1双寡头产量竞争的斯坦伯格模型
stackelberg game,先动优势 问题:有两厂商A、B, A为领头企业,先行动,选择产量q1;B为跟随者,观察到q1 后,选择产量q2 斯坦伯格模型与古诺模型之间的比较(先动优势的解释)2.2完全信息动态博弈下的伯川德模型
后动优势 问题:有两厂商A、B, A为领头企业,先行动,选择价格p1;B为跟随者,观察到p1 后,选择价格p2 动态与静态下的伯川德模型之间的比较(后动优势的解释) 这里的求法同上面一样,很简单,可以自己动手算一下。 后动优势的解释:2.3银行挤提问题
问题:有两个投资者,每人存入银行一笔存款D,银行将这笔存款投资于一个长期项目。 如果在该项目到期之前,存款人提前支取、银行被迫变现,共可收回2r, D>r; 如果银行等待长期项目到期支取,可回收2R,R>D。 设有2个提款日期 t=1,2 : 如果t=1,项目到期前,两个投资者都提款,则每人可得r; 如果只有1个投资者在t=1提款,他可得D,另一人得2r-D; 如果两人都未在t=1提款,在 t=2 两人都提款,则每人得R; 如果只有一个人在t=2提款,他得2R-D,另一人得D; 如果t=2时,两个投资者都不提款,银行向每个 投资者返还R。 博弈树如上所示,由逆向归纳法,先看t=2时的情形:此时的纳什均衡为 (提款,提款) (注意2R-D>R) 对于t=1时的情形: 纳什均衡:(提款,提款),(不提款,不提款)(注意2r-D<r<D<R)综上:有两个子博弈纳什均衡:
(提款,提款),支付为(r,r);
((不提款,提款);(不提款,提款)),支付为(R,R)2.4国际竞争和最优关税
问题:有两个国家,i=1,2,国家政府制定关税税率,企业制造产品供本国消费及出口,消费者在国内市场购买本国企业和国外企业生产的产品。 如果国家 i 的市场总产量为Q,则市场出清价格为: 其中,国家 i 的企业为国内生产h_i,出口e_i,企业成本为c。 产品出口时企业要承担关税成本,如果国家 j 的关税税率为 t_j ,则企业 i 支付的关税 e_i*t_j。 博弈的顺序如下: (1)政府同时选择关税; (2)企业观察到关税税率后,同时选择其提供国内消费和出口的产量。 企业 i 的收益为其利润额; 政府 i 的收益 = 国家 i 的消费者剩余+企业 i 的利润+从企业j收取的关税收入。 分析:感觉题目好长,这个问题比前面的稍微复杂一丢丢。简单分析一下就清晰了。 第一阶段政府选择关税,第二阶段企业选择产量,产量又分为进出口两部分。那总体解决思路,逆向归纳法告诉我们,先求企业产量(进出口的),再求政府关税。那么无论先求啥,收益函数先得写出来。2.5逆向归纳法求豪泰林模型
豪泰林模型: 问题:第1阶段,两个企业同时选择位置;第2阶段,两个企业进行价格竞争。逆向归纳法解。
2.6讨价还价模型
问题:两人分1万元,规则如下: 先由甲提出一个分割比例,乙可以接受也可以拒绝; 若乙拒绝,则他自己应提出另一个方案,让甲选择接受与否; …… 只要任何一方接受对方的方案,博弈就结束,而如果方案被拒绝,则被拒绝方案与以后的讨价还价不再有关系。 每一次,提出+是否接受为一个回合,讨价还价每多进行一个回合,由于谈判费用和利息损失等,双方的利益都要打一个折扣\delta(在0~1之间)。 假设如果博弈最多进行三个阶段,问什么是甲乙的最优均衡策略? 求解:逆向归纳法 第三回合,甲提出S=10000,就是全给自己此时收益为 第二回合:乙提出的给甲的钱得大于等于 ,否则甲就会拒绝,所以 第一回合:甲如果在第一回合就给乙同第二回合等价的收益,且加的收益也不会打折扣,岂不是两全其美!即 所以 当 =0.5时,甲最小值为7500 当0.5<<1时, 越大,甲的得益越大,乙的得益越小 启示:乙仗以讨价还价的筹码,跟甲拖时间。三、重复博弈与无名氏定理
3.1逆向归纳法存在的问题
(1)逆推归纳法要求博弈的结构,包括次序、规则和得益情况等都非常清楚 (2)逆推归纳法也不能分析比较复杂的动态博弈 (3)遇到两条路径利益相同的情况时,逆推归纳法就会发生选择困难 (4)对博弈方的理性要求太高,有“理性的共同知识”3.1.1蜈蚣博弈
这里有两个人1、2,R/r是合作,D/d是不合作。 蜈蚣悖论:矛盾之处在于: 直觉告诉我们:我们肯定要一直选择合作,这样我们的收益比不合作高很多。 逆向归纳法告诉我们:从最后一轮来看,2肯定会为了更高的利益101选择d(不合作);那么往前推,1知道2会选择不合作,1为了获取更高的利益99>98会选择D不合作;以此类推,最终的理性做法是从一开始就不合作,每个人获得1收益。参考小品《功夫》例子:
赵本山和范伟竞价轮椅。
范伟:我,两千!赵本山:我给两千五!
范伟:我,三千!赵本山:我,三千五!
范伟:我,四千!赵本山:我,五千!范伟:成交!
赵本山:再来一遍!
范伟:我,两千!赵本山赶忙:成交!
范伟:你咋不往上叫了呢?赵本山:我怕又喊乱了(嘻嘻)
3.2重复博弈与无名氏定理
3.2.1重复博弈
(1)定义
顾名思义,将博弈进行多次!被重复的博弈称 之为原博弈(或阶段博弈)
按照次数分为:有限次重复博弈和无限次重复博弈
收益函数:
其中,E是对策略集求期望的意思。(1-\delta)是标准化因子,有时候乘以这个可以简化计算,有没有个人感觉无所谓。求和中的\delta不能少!
所以通常也可以写成:
(2)贴现因子
这个是我很困惑的,所以整理了一下,为啥要这个玩意儿???
1)表示对模型和未来的不确定性
2)数学上计算折扣奖励的便捷方式(如果你有更好的方式,可以自行创造,只要make sense)
3)避免无限大的奖励(滚雪球)
4)个人偏好(远视的,还是近视的;即在乎未来的长期利益,还是在乎眼前的利益)
当然还有其他的一些原因,但是我个人感觉了解这些够够的了。能理解它是某种神奇的约定俗成的存在就可以了。或者像上面说的,你也可以搞点不一样的。
(3)基本特征
1)单次博弈之间没有实质联系,即前一阶段的博弈不改变其它阶段的博弈结构 2)所有局中人能够观测并记忆以往的博弈历史信息(包括action和支付等等,不过有一说一,具体情况还得具体讨论) 3)局中人的总支付为各阶段支付的贴现值之和,参考前面的公式(4)影响重复博弈均衡结果的主要因素:
1)博弈重复的次数:有限 or 无限 2)信息的完备性:正如上面 2)提到的,历史信息了解多少,还得看具体场景具体讨论(5)重复博弈的策略
指每一期的策略都基于前面的历史,所以每个人的策略是动态变化的。
(6)重复博弈的子博弈:
当博弈进行到t阶段,t前历史是局中人的共同知识。从t阶段开始直到博弈的终止,这样的博弈称为原博弈的子博弈。(t不是固定值,t=1,2,...,T)跟之前的定义差不多。
3.2.2有限次重复博弈
定理: 以阶段博弈G构成的重复T次( T<∞ )的博弈中,如果G 中仅存在唯一的纳什均衡,那么重复博弈G(T)的唯一子博弈完美均衡是阶段博弈的唯一纳什均衡重复T次。即每次博弈结局都是该纳什均衡。如果阶段博弈中有多个纳什均衡,那么在有限次重复博弈中非纳什均衡的结果就有可能出现。
证明:利用逆向归纳法,需要用到以下结论。
结论:对于每个博弈方,如果所有收益都各自加上相同的值,那么博弈均衡不会被改变。 依据:所有策略组合的收益加上相同的数值, 不会改变策略组合的相对优劣关系。证明:对于第T次重复,各博弈方必然采用G的唯一纳什均衡。对于T-1阶段,大家都知道第T次博弈的结果, 因此从该阶段开始的子博弈(即重复博弈的最后两个阶段) 中各种策略组合的收益,即本阶段收益+第T次博弈均衡收益。 因此各博弈方在该阶段仍将采用G的唯一纳什均衡,依此类推,直至博弈的第一阶段。证毕。 例:两阶段重复囚徒困境
由逆向归纳法可知,其纳什均衡为:有限次每个局中人在都采取“坦白”的行动,即第一阶段:(坦白,坦白),第二阶段:(坦白,坦白)。
3.2.3无限次重复博弈
(1)触发策略(或称冷酷策略):
博弈双方一开始选择合作,合作一直进行下去,直到有一方选择了背叛,另一方则永远选择背叛。
(2)例:无限次重复的囚徒困境问题
证明:对于无限次重复的囚徒困境,触发策略是子博弈纳什均衡
分两步证明 : 1) 两个局中人的触发策略构成纳什均衡(只需说明若囚徒2采取触发策略,囚徒1选择触发策略是最优的,反之亦然) 证明开始之前先简单分析一下。 这意味着,当这个1/5越小的时候,表明对双方合作的限制越小,即合作的可能性越大。也就是说,如果实际中折扣因子/贴现因子≥1/5,只要囚徒2不先坦白,1就不会先坦白。 好了,回归正题,我们要考虑囚徒2先选择了坦白,囚徒1是否选择触发策略以惩罚囚徒2? 证明:如果囚徒1坚持触发策略(坦白),他随后每个阶段的收益都是-5;但是如果选择其他策略,他在任何阶段的收益都将小于-5(得到-8)。因此,囚徒1都会有积极性坚持触发策略(坦白)。同理, 如果囚徒1坚持触发策略,囚徒2坚持触发策略(惩罚自己)也是最优的。证毕。 2)两个局中人的触发策略构成子博弈纳什均衡 每一个子博弈有以下两种情形: 情形1: 没有任何参与人曾经坦白。 若贴现因子≥1/5,给定囚徒2坚持触发策略(没有先选择坦白),囚徒1不会选择先坦白,因此触发策略构成子博弈纳什均衡; 情形2:至少有一个参与人曾经坦白。 根据触发策略,参与人只是重复单阶段博弈的纳什均衡,它自然也是整个子博弈的纳什均衡 综上,触发策略是无限次囚徒博弈的一个子博弈纳什均衡,当贴现因子满足一 定条件时,帕累托最优解(不坦白,不坦白)是每一个阶段的均衡结果,从而在无限次博弈中,囚徒走出了一次性博弈的困境。 原因:如果博弈重复无穷多次,且每个人有足够的耐心,不在乎短期的利益,参与人有积极性为自己建立一个乐于合作的声誉; 同时,也有积极性惩罚对方的机会主义行为。(3)例:无限次重复的古诺模型
(4)无名氏定理:
无名氏定理:对于n人的无限次重复博弈,s*为一个NE,e=(e1,e2,…,en)为其对应的均衡支付向量,v=(v1,v2,…,vn)为可行支付向量集合V中的任意可行支付向量,则对于任何满足vi>ei
的v,存在一个贴现因子<1,对于,v=(v1,v2,…,vn)是一个特定的子博弈精炼纳什均衡的支付向量。
无名氏定理的含义:
在无限次重复博弈中,如果局中人有足够的耐心(即贴现因子足够大),那么,任何满足个人理性的可行的支付向量都可以通过一个特定的子博弈精炼纳什均衡而实现。即在无限次重复博弈中,占优于纳什均衡的支付一定可以实现。
无名氏定理有两面性:
1)若参与者是短视的,则不能维持团体想要的结果,参与者有长期目标的情况下可以维持;
2)重复博弈的均衡结果集合是巨大的,所以均衡概念缺乏预测的能力。
(5)例:无限次重复的囚徒困境博弈
图中阴影部分上任何一点,都 是某个特定的子博弈精炼纳什均衡的结果(可行收益集,纯策略收益的凸组合)
(6)例:基于无名氏定理的n个厂商的古诺产量
任何介于古诺均衡产量和共谋垄断产量之间的产量,都可以作为触发策略的结果而实现,具体推导思路参考上面无限次重复的古诺模型。
n个厂商采取的触发策略如下: 在前面的t-1(t>1)期,每个厂商的产量都是q*,在没有厂商改变的情况下, 该产量继续执行,直到有某个厂商的产量出现了偏离,那么后续产量均为3.2.4有多个纳什均衡的有限重复博弈
如果重复博弈G(T)进行有限多次,当原博弈G有不止一个纳什均衡的情况,仍然可以构造触发策略,以实现比均衡更好的博弈结果。 例5、双寡头垄断定价博弈 现有两个厂商生产某一产品,每一个厂商在定价上都有策略集: S i ={高价,中价,低价},i=1,2.两厂商的收益如下所示 (1)博弈只进行一次:则有两个纯策略纳什均衡(中价,中价)和(低价,低价),对应的均衡 结果分别是(3,3)和(1,1) (2)博弈进行两次:贴现因子为 ,考虑策略组合:第一阶段选择高价;若第一阶段博弈结果是(5,5),第二阶段就采取中价, 否则采取低价。 若两个厂商均采取上述策略, 则他们的收益为: 假设厂商违背策略,只能在第一阶段违背 因为第二阶段采用的是纳什均衡策略。 若厂商 i 在第一阶段采取了中价,他知道对方的策略,第二阶段只能采取低价,那么厂商 i 的总收益为: 如果要求其不违背之前的约 定,需要满足: 即 此时他们的收益比每个阶段采用纳什均衡所得的结果要好 分析: 这种不是由全部纳什均衡组合构成的子博弈精炼纳什均衡,有两个特征: ① 遵守则有奖励,违背则受惩罚; ② 这是可置信的威胁(由贴现因子的大小决定),以至于没有局中人愿意单独违背这种策略组合,从而符合纳什均衡的原则。 注意:此处的触发策略与无限次重复博弈中的触发策略有两点显著不同: ① 惩罚策略有针对性。由于多重纳什均衡的结果对每个局中人的结局不一 样,因此在策略组合违背后的惩罚也不一样; ② 惩罚的时段效应。由于重复博弈阶段T是有限的,因而设置阶段t*,对t*之前对该策略的违背,至少T-t*个阶段进行惩罚,从而保证有足够的惩罚威胁。3.2.5再谈讨价还价模型
鲁宾斯坦轮流出价讨价还价模型
问题:
两人A、B分一块蛋糕,在第0,2,4,……阶段(偶数阶段)A提出一种分配方案(出价)(x,1-x),B可以接受也可以拒绝。如果接受, 博弈结束;如果拒绝,那么B将在其后的奇数阶段中提出自己的分配 方案,这是一种无期限的完美信息博弈。 收益函数:若在 t 阶段达成协议,贴现收益为 ,其中x为A获得的蛋糕份数,(1-x)为B的,分别为两个参与人的贴现因子。(1)有限期讨价还价模型(4期)
这里的选择x1,x2,x3,x4都是表示选择A所占份额的大小
规律:
例: 单位欲拨发给甲、乙两个企业一笔资金,如果当期没有达成协议,下期的资金将缩减一半。求子博弈均衡的分配方案。
(2)无限期讨价还价模型
有限期模型的缺点: 1)解依赖于期限的长短以及最后是哪一方出价; 2)若最后阶段没达成协议,有限期博弈不允许参与人进一步努力以达成一个合理的协议。考虑无限期讨价还价模型:
奇数阶段T=1,3,5,...由局中人1选择其占有利益的份额;
偶数阶段T=2,4,6,...由局中人2选择1占有利益的份额。
显而易见的是,博弈无限期,不可使用逆向归纳法。
解题思路:
1. 纳什均衡出价大家会接受; 2. 因为无限期,所以从 t=1 开始的子博弈与由 t=1,3,5,...开始的子博弈无区别。 标签:博弈,策略,重复,博弈论,提款,简述,自用,均衡,纳什 From: https://blog.csdn.net/seasons_win/article/details/141787767