首页 > 其他分享 >博弈论——小偷与守卫混合纳什均衡精解(十九)

博弈论——小偷与守卫混合纳什均衡精解(十九)

时间:2023-11-18 20:34:25浏览次数:42  
标签:纳什 博弈 博弈论 守卫 混合策略 概率 小偷 精解

从经济学角度上讲,对于理性的人,犯罪成本高于犯罪收益,自然就不会去犯罪。所以简单回答就是,违法成本变高会减少犯罪。使违法成本变高有很多方法,最直接最常见的就是严打,即加大对犯罪的处罚力度。小偷-守卫博弈有助于我们对这些方面的思考,该博弈在双方采用纯策略的情况下不存在纳什均衡,但在双方采用混合策略的情况下存在纳什均衡,且双方都没有动机偏离该纳什均衡。从博弈结果上看,“加大对小偷的处罚,无法降低偷窃事件的发生率,反倒会使守卫偷懒的概率增加”和“加大对守卫的处罚,不会降低守卫偷懒的概率,但是却能使偷窃事件的发生率下降”这两个结论在理论层面反映了“激励悖论”存在的真实性,给生活中的许多问题提供了可参考的指导思想。但是真实场景中环境的复杂性也使得博弈原理更为复杂,需要兼顾多方面的影响,而且要考虑人的感性因素。小偷-守卫博弈是一个简单的问题,也将一直是博弈论中永恒的经典,并不断给人类带来感性的挑战和理性的思考。

一、小偷与守卫博弈(数值版)

假设你是这个聪明理智的小偷,当你看到下面两个支付矩阵时会有什么想法?

图1 图2

通过对比,你的感性告诉你,你将在第2个博弈场景中大有所为——因为你对多出来的4000个单位的收益充满欲望。换句话说,你认为你更有可能在第2个博弈场景中选择偷窃行为。但是如果你足够聪明,你的理性会告诉你,偷窃利益的增长会引起守卫的警觉,守卫在第2个博弈场景中睡觉的可能性明显会小于在第1个场景中睡觉的可能性,因为理智的守卫不可能在看到偷窃利益增长的变化后毫无反应和行动。这样一来,你好像连这两个对比博弈场景都分析不清了......

二、小偷与守卫(理论版)

一守卫看守一个仓库, 一小偷要在夜晚去偷仓库的东西。但是守卫有可能晚上睡觉也可能不睡,如果守卫睡觉,小偷偷窃就会成功,他将获得正效用\(V\),而由于守卫失职,他将获得负效用\(-D\);而如果守卫不睡,守卫能抓住小偷,小偷将获得负效用\(-P\); 而小偷也有可能不去偷,那样守卫如果睡觉,他获得正效用\(S\)。所以守卫有睡和不睡两种策略选择,小偷也有偷和不偷两种策略选择,见图3所示。

图3 图4

该博弈不存在纯纳什均衡,为此我们求解混合策略。设小偷选择偷的概率为\(p\_1\),则

\[-D\times p_1+S\times(1-p_1)=0\times p_1+0\times (1-p_1) \]

得到$$p_1=\frac{S}{D+S}$$
设守卫选择睡觉的概率为\(p_2\),则

\[V\times p_2+(-P)\times(1-p_2)=S\times p_2+0\times (1-p_2) \]

得到$$p_2=\frac{P}{V+P}$$
从而混合策略纳什均衡为,小偷以\(p_1=\frac{S}{D+S}\)的概率去偷东西,守卫以\(p_2=\frac{P}{V+P}\)的概率睡觉,使用混合反应函数见图2。
小偷去偷与否和守卫得到的效用有关,守卫睡觉与否和小偷得到的效用有关。比如说,如果小偷偷窃成功得到的效用\(V\)越大,间接说明仓库储藏的物品越重要,守卫越不去睡觉。其他情况可以类似分析。

混合纳什均衡的求解

先讨论小偷选择“偷”与“不偷” 两种策略概率的确定。在图4所示中,横轴表示小偷选择“偷" 策略的概率\(p_t\),它分布在0到1之间,“不偷"的概率则等于\(1−p_t\); 纵轴则反映对应小偷各种“偷” 概率, 守卫选择“睡” 策略的期望得益。图中从\(S\) 到\(-D\)连线的纵坐标就是在横坐标对应的小偷"偷”概率下,守卫“睡”的期望得益$$S (1 - p_t) + (-D)p_t$$是图5的实心直线。

图5 图6

容易说明该线与横轴交点\(p^*_t\)就是小偷“偷”的最佳概率,“不偷”的最佳概率为\(1-p^*_t\)。假设小偷“偷”的概率大于\(p^*_t\), 守卫“睡”的期望得益小于0, 他肯定选择“不睡“, 从而小偷偷一次被抓一次有赔无赚,因此小偷“偷”的概率大于\(p^*_t\)是不可取的。反过来,如果小偷“偷”的概率小于\(p^*_t\),则守卫“睡”的期望得益大于0,守卫睡大觉合算,即使小偷提高一些“偷”的概率,只要不大于\(p^*_t\),守卫都会选择“睡”,小偷不用害怕会被抓住。在保证不被抓住的前提下,小偷“偷”的概率越大收获越大,因此他会让“偷”的概率趋向于\(p^*_t\),均衡点是小偷以概率\(p^*_t\)和\(1-p^*_t\), 分别选择“偷”和“不偷”。此时守卫“睡” 和“不睡” 的期望得益都等千0, 选择纯策略“睡” 或“不睡” ,或者混合策略的期望得益都相同。不过,为了让小偷也没有可乘之机,守卫也必须选择特定概率分布的混合策略。
可以用类似的方法分析守卫采取“睡”与“不睡”的混合策略概率分布。结论是图6的\(p^*_g\)和\(1-p^*_g\)是守卫的最佳概率选择。
在小偷和守卫的博弈中,小偷分别以概率\(p^*_t\)和\(1-p^*_t\);随机选择“偷"与“不偷",守卫分别以概率\(p^*_g\)和\(1-p^*_g\)。随机选择“睡”与“不睡”时,双方都不能通过改变策略改善自己的期望得益, 因此构成混合策略纳什均衡。这也是该博弈唯一的纳什均衡。

激励的悖论

小偷与守卫之间的混合策略博弈, 还可以揭示一种“激励的悖论” 。假设当局为了抑制盗窃现象而加重对小偷的惩罚,也就是加大\(P\),在上图中即\(−P\)向下移动到\(−P^{′}\)。如果守卫不改变原均衡的混合策略概率分布,此时小偷"偷" 的期望得益会变为负值,小偷会停止"偷"。但是在长期中,小偷减少" 偷” 会使守卫更多选择"偷",最终守卫会将"偷"的概率提高到\(p^*_g\),达到新的均衡,小偷"偷"的期望得益又恢复到0 ,会重新选择混合策略。由于小偷的混合策略概率分布由上图决定,不受\(P\)值的影响。因此,在长期中政府加重对小偷的惩罚最多只能抑制短期的盗窃发生率,对长期盗窃率没有影响,长期作用是让守卫更多偷懒。当然,如果将守卫可以轻松赚钱也看作增加社会福利,或者理解成单位可以少派守卫,那么政府加重对小偷的惩罚还是有意义的。
再讨论加重对失职守卫处罚的作用。加重对守卫处罚即\(D\)增大到\(D_1\)。如果小偷"偷"的概率不变,守卫"睡"的期望得益变为负值,守卫选择“不睡" 。守卫"不睡"小偷只能减少"偷", 直到将\(p^*_t\)下降到\(p^{*'}_t\), 此时守卫又会恢复混合策略。因此,加重对守卫的处罚短期效果是使守卫真正尽职,但长期中并不能使守卫更尽职,守卫的勤勉程度不是由\(D\)决定。在长期中加重处罚失职守卫的真正作用,恰恰是降低发生盗窃案的概率。

图7 图8

模型的启示

小偷和守卫博弈揭示的这种政策目标和政策结果之间的意外关系,常被称为“激励的悖论” 。这个悖论对于制定政策和进行管理很有启发性。对于上面的分析读者可能仍然存在疑问,因为很难相信现实中的小偷和守卫有选择上述混合策略概率的意识和能力,通过反复博弈摸索均衡概率似乎也不现实。这些问题在类似的混合策略均衡博弈中都存在。这些疑问其实早在纳什提出纳什均衡概念时,就给出了解决方法。纳什一开始就提供了关于纳什均衡的理性主义和群体行为两种解释。理性主义解释是个体理性选择的策略均衡,群体行为解释指大量个体组成的群体中,面临同样博弈间题采用特定纯策略的频率(比例)稳定性。按照这种群体行为解释,小偷与守卫对混合策略的选择, 可以分别理解为某个地区偷盗案件发生的频率和该地区所有守卫中偷懒和勤勉者的比例,混合策略纳什均衡就是上述频率和比例之间的平衡关系。这种解释并不要求小偷和守卫有混合策略概率选择的意识和能力, 因此更符合实际,对于指导实践也更有意义。

参考文献

  1. 小偷-守卫博弈:“诡异”的纳什均衡
  2. 守卫与小偷

标签:纳什,博弈,博弈论,守卫,混合策略,概率,小偷,精解
From: https://www.cnblogs.com/haohai9309/p/17841008.html

相关文章

  • 博弈论——古诺博弈模型详解
    古诺模型(Cournotmodel)是博弈论中最具有代表性的模型之一,也是是纳什均衡最早的版本。它是法国经济学家古诺(AugustinCournot)在1938年出版的《财富理论的数学原理研究》一书中最先提出的。而古诺的定义比纳什的定义早了一百多年,足以体现博弈论这样一个学科是深深扎根于经济学的土......
  • Openstack云计算之KVM技术精解
    ......
  • 博弈论——信号博弈(十一)
    信号博弈是经济学和决策理论中的一个重要模型,它旨在解释如何在存在信息不对称的情况下,通过信号传递和反应函数的相互作用,实现均衡。信息不对称是指参与博弈的各方所拥有的信息不同,这可能导致不公平的结果。信号传递是指通过某种行为或信号,传递信息给其他参与方,以改善信息的对称性,......
  • 【笔记】博弈论
    【笔记】博弈论0基本概念&性质0.1博弈论1SG函数ps.通过SG函数来理解三个基本模型,也是不错的选择。1.2定义\(\text{SG}(x)=\text{mex}\{\text{SG}(y_i)\}\)(其中\(y_i\)为\(x\)的后继状态)1.3SG定理由\(n\)个博弈图组成的游戏,设起点(即每个连通分量内入......
  • P4260 博弈论与概率统计
    传送门description\(T\)次询问,每次给定\(n,m,p\),总共\(n+m\)局游戏,每局A有\(p\)的概率获胜。一局游戏获胜A的得分加1,否则减1,但是如果A在得分为0的情况下输了一局,得分不变。求A赢\(n\)局,输\(m\)局后游戏结束时A的得分的数学期望。\(n,m,T\leq2.5\time......
  • 博弈论(Nim游戏 , 有向图游戏)
    博弈论专题Nim游戏内容: 有n堆石子,每堆石子的石子数给出,甲乙两人回合制取石子,每次可以取任意一堆石子的任意多个(可以直接取完,但不能不取),每个人都按照最优策略来取(抽象),问先手必胜或先手必败? 结论: 设有n堆石子,每堆的个数分别为a1,a2,a3,……,an-1,an。则......
  • 10.11 博弈论之抢夺安排最后一名同学进校
    一开始解决这道题的时候很费解,想了一些办法发现都是无从下手,最后看到一位大佬写的有关博弈论的博客,突然顿悟。以下是题目内容std的国庆节结束了,由于疫情,校长决定让同学们分批进校。​至于每批学生来多少人由小蒲和小池负责,两个人轮番负责,需要所有人都可以进校,小蒲学长不想被别......
  • 嵌入式BI的精解与探索
    摘要:本文由葡萄城技术团队原创并首发。转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具、解决方案和服务,赋能开发者。前言1996年,商业智能(BI)的概念首次浮现,随后的20多年间,商业智能迎来了飞速发展。如今,商业智能已经成为一个庞大而多元的领域,除了我们熟知的独立商业......
  • 博弈论——练习(十三)
    1(分钱)两人之间分\(10\)。使用下述方法:每个人说出一个至多为10的数字(非负整数)。如果两人说出的数字之和不超过10,那么每个人得到她所说出的钱数(多出的钱被销毁),如果两人提出的数字之和超过10并且数目不同,那么说出较小数的人得到自己所说的钱数,而另一个人则得到剩余的钱。如果......
  • 博弈论——连续产量古诺模型
    连续产量古诺模型连续产量古诺模型是博弈论中非常经典的模型,以两厂商连续产量古诺博弈为例:1、模型建立Player:两个供应相同产品的厂商产量:厂商1的产量为q1,厂商2的产量为q2,市场总供给为Q=q1+q2。市场出清价格P:市场总供给的函数P(Q)=8-Q(市场出清价格是可以将产品全部卖出的价格)成本......