首页 > 其他分享 >博弈论——完全信息静态博弈(二)

博弈论——完全信息静态博弈(二)

时间:2023-08-11 12:00:34浏览次数:39  
标签:right 博弈 策略 静态 博弈论 选择 cdot left

完全信息静态博弈是指参与者在做出决策之前拥有所有可能的信息,包括对手的策略和利益。因此,每位参与者可以准确地评估各种选择对自己和对手的影响。这种情况下,决策的结果是确定性的,不受随机因素影响。参与者通过理性分析和预测对手的行为,以最大化自身利益。完全信息静态博弈广泛应用于经济、政治和生活中的决策情境,帮助人们理解和优化策略选择,从而达到最佳的个人或集体结果。

一、博弈的策略式

参与人(Players): \(N\)参与人的集合;第\(i\)参与人。
博弈参与人的策略集(Strategy sets):\(S_i\)参与人的策略集,\(s_i\)参与人策略集的一个元素。所有参与人的策略放在一起,称之为博弈的策略组合,表示为\(S = (s_1, s_2, … ,s_n)\)。
博弈参与人的支付函数(Payoff): \(u_i\)参与人\(i\)的支付函数\(i\in N\);\(u_i(s_1,s_2,...,s_i,...,s_n)\)。
博弈的策略式可用收益矩阵来直观表示,见下图。

二、占优策略(Dominant Strategies)

在完全信息静态博弈中,由于信息完全、参与人同时行动,所以恰好用博弈的策略式描述其模型,又由于参与人有限,所以博弈的策略式可去掉参与人集合,简化为\(G = \{\{ S_i \}_{i=1}^N, \{ u_i \}_{i=1}^N \}\) ,\(|N|=n\)。
在博弈$$G=\{S_1,S_2,S_3,...,S_n;u_1,u_2,...u_n\}$$中,如果\(s_i^{'}\)​和\(s_i^{''}\)​代表的参与者\(i\)的两个策略,如果对于其他的参与者每一个可能的策略组合,\(i\)选择\(s_i^{'}\)​的收益都小于选择\(s_i^{''}\)的收益,则称策略\(s_i^{'}\)​相对于策略\(s_i^{''}\)​​是严格劣策略,即

\[u_i(s_1,s_2,...,s_{i-1},s_i^{'},s_{i+1},..,s_n)<u_i(s_1,s_2,...,s_{i-1},s_i^{''},s_{i+1},..,s_n) \]

对其他参与者在其战略空间 \(S_1,\cdot\cdot\cdot,S_{i-1},S_{i+1},\cdot\cdot\cdot,S_n\)中每一组可能的策略组合 \((s_1,\cdot\cdot\cdot,s_{i-1},s_{i+1},\cdot\cdot\cdot,s_n)\) 都成立。

同样,若\(s_i^{'}\)​和\(s_i^{''}\)​代表的参与者\(i\)的两个策略,如果对于其他的参与者每一个可能的策略组合,\(i\)选择\(s_i^{'}\)​的收益都大于选择\(s_i^{''}\)的收益,则称策略\(s_i^{'}\)​相对于策略\(s_i^{''}\)​​是严格优策略,即

\[u_i(s_1,s_2,...,s_{i-1},s_i^{'},s_{i+1},..,s_n)>u_i(s_1,s_2,...,s_{i-1},s_i^{''},s_{i+1},..,s_n) \]

对其他参与者在其策略空间 \(S_1,\cdot\cdot\cdot,S_{i-1},S_{i+1},\cdot\cdot\cdot,S_n\)中每一组可能的策略组合\((s_1,\cdot\cdot\cdot,s_{i-1},s_{i+1},\cdot\cdot\cdot,s_n)\) 都成立。
若上面关系变为

\[u_i(s_1,s_2,...,s_{i-1},s_i^{'},s_{i+1},..,s_n) \le u_i(s_1,s_2,...,s_{i-1},s_i^{''},s_{i+1},..,s_n) \]

则称策略\(s_i^{'}\)​相对于策略\(s_i^{''}\)​​是弱劣策略,反之就是弱优策略

理性的参与者不会选择严格劣战略,因为他对其他的人的选择没有办法判断,所以这一个战略是他的最优反应。
占优策略:若\(s_i^{'}\)​参与者\(i\)的一个策略,如果对于其他参与者每一个可能的策略组合,\(i\)选择\(s_i^{'}\)​的收益都大于或等于选择\(s_i\)的收益,其中\(s_i\)是\(S_i\)任一策略,则称策略\(s_i^{'}\)​是参与人\(i\)的占优策略,即

\[u_i(s_1,s_2,...,s_{i-1},s_i^{'},s_{i+1},..,s_n) \ge u_i(s_1,s_2,...,s_{i-1},s_i,s_{i+1},..,s_n) \]

对其他参与者在其策略空间 \(S_1,\cdot\cdot\cdot,S_{i-1},S_{i+1},\cdot\cdot\cdot,S_n\)中每一组可能的策略组合\((s_1,\cdot\cdot\cdot,s_{i-1},s_{i+1},\cdot\cdot\cdot,s_n)\) ,对任一\(s_i \in S_i\)均成立。

占优策略:是指不论对手选择什么,自己的某个策略都不比其他策略差的策略。如果自己的某个策略严格强于(收益大于)任何其他策略,那么该策略还被称为严格占优策略。占优均衡:如果每个参与人都存在占优策略,那么这些占优策略放在一起,构成了博弈的占优均衡。劣策略:是指不论对手选择什么,自己都不会选择的策略。对于劣策略。可以直接剔除以简化博弈,如果剔除到最后只留下唯一一个策略组合,那么这个策略组合就是我们说的重复剔除严格劣策略均衡。如果存在重复剔除严格劣策略均衡,那么我们说这个博弈是重复剔除劣策略可解的。
【例1】考虑下面的囚徒困境博弈

坦白 抵赖
坦白 -8,-8 0,-10
抵赖 -10,0 -1,-1

对于选择坦白,对手无论是坦白或者抵赖,选择坦白的结果均好于抵赖,可知,坦白属于占优策略,(-8,-8)称为占优策略均衡

【例2】考虑下面的博弈(重复剔除严格劣策略)

参与人2
参与人11,01,20,1
0,30,12,0

分析上述例子,如果参与人1选择上,参与人2会选择中;如果参与人1选择下,参与人2会选择左,所以战略右就是参与人2的严格劣策略,则上述博弈变为:

参与人2
参与人11,01,2
0,30,1

如果参与人2选择左,参与人1会选择上;如果参与人2选择中,则参与人1会选择上,所以策略(下)就是参与人1的严格劣策略,则上述博弈变为:

参与人2
参与人11,01,2

如果参与人1选择上,则参与人2会选择中,所以策略左就是参与人2的严格劣策略,则上述博弈的最终结果就是(上,中):

参与人2
参与人11,2

【例3】考虑下面的博弈(重复剔除严格劣策略)

Player1, Player2 a b
A 3,4 4,3
B 5,3 3,5
C 5,3 4,3

本例中不存在严格劣策略,则考虑重复剔除弱劣策略。对于Player1, 策略A、B弱劣于C,所以去掉收益矩阵的第一、二行,得

Player1, Player2 a b
C 5,3 4,3

最后均衡的选择取决于Player2的策略选择。

二、纳什均衡

我们自然地会去想,在这种条件下,两个囚犯会选择怎样的策略呢?先从A的视角想一下,

  • 如果B坦白:A选择坦白,收益是(-6);A选择沉默,收益是(-12),因此A会坦白。
  • 如果B沉默:A选择坦白,收益是(0);A选择沉默,收益是(-1),因此A会坦白。

同理,B也是这么想的,因此,两人都会选择坦白。

1. 纳什均衡的想法

从上面的思考中,可以看出这种思想:当对手策略选定的时候,我会调整自己的策略,使得自己收益在几种策略选择中是最大的,这时的策略称为“最优反应”。这个时候,如果对手不改变策略的话,我是没有动机去改变自己的策略的。

如果每个人的策略都是“最优反应”,那么就会形成一种稳定的局面,这时的博弈结果就是纳什均衡

2. 纳什均衡形式化定义

纳什均衡(Nash equilibrium)博弈结果a∗=(a1∗,a2∗,…,aN∗)a{*}=\left(a_{1}, a_{2}^{*}, \ldots, a_{N}{*}\right)a=\left(a_{1}^{*}, a_{2}^{*}, \ldots, a_{N}^{*}\right),使得对于每个玩家iii都有: ui(ai∗,a−i∗)≥ui(ai,a−i∗) u_{i}\left(a_{i}^{*}, a_{-i}^{*}\right) \geq u_{i}\left(a_{i}, a_{-i}^{*}\right) \\ u_{i}\left(a_{i}^{*}, a_{-i}^{*}\right) \geq u_{i}\left(a_{i}, a_{-i}^{*}\right) \\ (对手策略选定的时候,自己最优)

纳什均衡简写为NE

3. 纳什均衡求解:寻找最优反应

玩家iii关于对手策略a−ia_{-i}a_{-i}的最优反应:Bi(a−i)={ai∈Ai:ui(ai,a−i)≥ui(bi,a−i) for all bi∈Ai}B_{i}\left(a_{-i}\right)=\left\{a_{i} \in A_{i}: u_{i}\left(a_{i}, a_{-i}\right) \geq u_{i}\left(b_{i}, a_{-i}\right) \text { for all } b_{i} \in A_{i}\right\}B_{i}\left(a_{-i}\right)=\left\{a_{i} \in A_{i}: u_{i}\left(a_{i}, a_{-i}\right) \geq u_{i}\left(b_{i}, a_{-i}\right) \text { for all } b_{i} \in A_{i}\right\}

同时满足所有人的最优反应的博弈结果,就是纳什均衡。也就是对于 ∀i\forall i\forall i ,满足ai∗∈Bi(a−i∗)a_{i}^{*} \in B_{i}\left(a_{-i}{*}\right)a_{i} \in B_{i}\left(a_{-i}^{*}\right)的博弈结果。

4. 例1:依旧是囚徒困境

B1(c)={c}B1(d)={c}B2(c)={c}B2(d)={c} \begin{array}{ll} B_{1}(c)=\{c\} & B_{1}(d)=\{c\} \\ B_{2}(c)=\{c\} & B_{2}(d)=\{c\} \end{array} \\ \begin{array}{ll} B_{1}(c)=\{c\} & B_{1}(d)=\{c\} \\ B_{2}(c)=\{c\} & B_{2}(d)=\{c\} \end{array} \\ 在收益矩阵上标出这些最优反应:

B1(c)={c}B_1(c)=\{c\}B_1(c)=\{c\}表示在囚徒2选择c的时候,囚徒1会选择c,因为囚徒1的收益(-6 > -12)。对应矩阵中左边红色的”√“。

详细分析如下:

B1(d)={c}B_1(d)=\{c\}B_1(d)=\{c\}表示在囚徒2选择d的时候,囚徒1会选择c,因为囚徒1的收益(0 > -1)。对应矩阵中右边红色的”√“。

B2(c)={c}B_2(c)=\{c\}B_2(c)=\{c\}表示在囚徒1选择c的时候,囚徒2会选择c,因为囚徒2的收益(-6 > -12)。对应矩阵中上边绿色的”√“。

B2(d)={c}B_2(d)=\{c\}B_2(d)=\{c\}表示在囚徒1选择d的时候,囚徒2会选择c,因为囚徒2的收益(0 > -1)。对应矩阵中下边绿色的”√“。

因此,最终得到满足所有人最优反应的结果:(c,c),也就是两人都坦白。

5. 例2:古诺竞争

这个例子收益是连续的,不能用矩阵来表示。问题如下:

两个厂商{1, 2}生产和销售同一种商品,厂商iii生产的数量记为qiq_iq_i。 每件商品生产成本都是c,售价是:max(0,a−b(q1+q2))max(0,a-b(q_1+q_2))max(0,a-b(q_1+q_2)) 求纳什均衡

1) 形式化

G={{1,2},{q1,q2},{u1,u2}}G = \{\{1,2\}, \{ q_1,q_2 \}, \{ u_1,u_2 \} \}G = \{\{1,2\}, \{ q_1,q_2 \}, \{ u_1,u_2 \} \}

其中,收益ui(q1,q2)=(max(0,a−b(q1+q2))−c)qiu_i(q_1,q_2) = (max(0,a-b(q_1+q_2))-c)q_iu_i(q_1,q_2) = (max(0,a-b(q_1+q_2))-c)q_i。(售价-成本)x生产数量

2) 求最优反应函数

对于厂商1:

  • 如果q2≥(a−c)/bq_{2} \geq(a-c) / bq_{2} \geq(a-c) / b,那么对于任意的q1≥0q_1 \ge 0q_1 \ge 0,都有u1(q1,q2)≤0u_{1}\left(q_{1}, q_{2}\right) \leq 0u_{1}\left(q_{1}, q_{2}\right) \leq 0,即没有正收益
  • 如果q2<(a−c)/bq_{2} < (a-c) / bq_{2} < (a-c) / b,那么u1(q1,q2)=(a−b(q1+q2))−c)q1u_1(q_1,q_2) = (a-b(q_1+q_2))-c)q_1u_1(q_1,q_2) = (a-b(q_1+q_2))-c)q_1。
  • 固定q2q_2q_2,q1q_1q_1何时取最大呢?求导!
  • 求解:∂u1(q1,q2)∂q1=a−c−bq2−2bq1=0\frac{\partial u_{1}\left(q_{1}, q_{2}\right)}{\partial q_{1}}=a-c-b q_{2}-2 b q_{1}=0 \frac{\partial u_{1}\left(q_{1}, q_{2}\right)}{\partial q_{1}}=a-c-b q_{2}-2 b q_{1}=0 ,求得q1=(a−c−bq2)/2bq_{1}=\left(a-c-b q_{2}\right) / 2 bq_{1}=\left(a-c-b q_{2}\right) / 2 b,这就是厂商1的最优反应函数

同理,对于厂商2,最优反应函数是:q2=(a−c−bq1)/2bq_{2}=\left(a-c-b q_{1}\right) / 2bq_{2}=\left(a-c-b q_{1}\right) / 2b

3) 纳什均衡

对于满足纳什均衡的博弈结果(q1∗,q2∗)\left(q_{1}^{*}, q_{2}{*}\right)\left(q_{1}, q_{2}^{*}\right),有: q1∗=B1(q2∗)=(a−c−bq2∗)/2bq2∗=B2(q1∗)=(a−c−bq1∗)/2b \begin{array}{l} q_{1}{*}=B_{1}\left(q_{2}\right)=\left(a-c-b q_{2}^{*}\right) / 2 b \\ q_{2}{*}=B_{2}\left(q_{1}\right)=\left(a-c-b q_{1}^{*}\right) / 2 b \end{array} \\ \begin{array}{l} q_{1}{*}=B_{1}\left(q_{2}\right)=\left(a-c-b q_{2}^{*}\right) / 2 b \\ q_{2}{*}=B_{2}\left(q_{1}\right)=\left(a-c-b q_{1}^{*}\right) / 2 b \end{array} \\ 联立方程,解得q1∗=q2∗=a−c3bq_{1}^{*}= q_{2}{*}=\frac{a-c}{3b}q_{1}= q_{2}^{*}=\frac{a-c}{3b}

最优反应相交之处

三、实例

总结

完全信息静态博弈在市场竞争、定价策略、合作与竞争等经济决策中发挥重要作用。在企业在制定定价、推广、市场份额等策略时,需要考虑竞争对手的决策,这就涉及到博弈的思维;政治家和政府在制定政策、谈判协议时,需要考虑其他国家或政治实体的反应,这也涉及到博弈理论;国际间的环境协议,如气候变化协定,涉及到各国在资源分配上的博弈。
完全信息静态博弈提供了对决策情境的深入理解,帮助人们预测他人可能的行为,并做出更明智的选择。它强调了理性决策者如何在已知信息的基础上优化自己的利益。然而,博弈理论在现实中可能会受到信息不对称、非理性行为和多方利益等因素的影响,因此在实际应用中需要综合考虑更多的因素。尽管如此,完全信息静态博弈仍然为许多领域的决策提供了有益的分析框架。

参考文献

标签:right,博弈,策略,静态,博弈论,选择,cdot,left
From: https://www.cnblogs.com/haohai9309/p/17621350.html

相关文章

  • 取石子游戏(博弈dp)
    在研究过Nim游戏及各种变种之后,Orez又发现了一种全新的取石子游戏,这个游戏是这样的:有 n 堆石子,将这 n 堆石子摆成一排。游戏由两个人进行,两人轮流操作,每次操作者都可以从最左或最右的一堆中取出若干颗石子,可以将那一堆全部取掉,但不能不取,不能操作的人就输了。Orez......
  • 7.静态库和共享(动态)库
    7.静态库和共享(动态)库7.1库的介绍什么是库库是二进制文件,是源代码文件的另一种表现形式,是加了密的源代码;是一些功能相近或者是相似的函数的集合体。使用库有什么好处▶提高代码的可重用性,而且还可以提高程序的健壮性;▶可以减少开发者的代码开发量,缩短开发周期。库制作完......
  • windows下部署nginx+配置代理+静态资源
    1、首先下载nginx安装包:官网网址此处以目前最新版1.25.1为基准部署2、直接解压安装包修改conf中配置:修改对应路径注:在windows中路径也是用/,而非用\3、upstream代理,和Linux环境一样静态资源配置,和Linux一样,只需要替换路径4、启动nginx上述配置OK后,双击nginx.exe文件,启动......
  • 静态图片
     ......
  • Jenkins集成sonar代码静态扫描
    sonar简介Sonar(SonarQube)是一个开源平台,用于管理源代码的质量。Sonar不只是一个质量数据报告工具,更是代码质量管理平台。支持的语言包括:Java、PHP、C#、C、Cobol、PL/SQL、Flex等。官网:https://www.sonarqube.orgJenkins插件安装Jenkins集成sonar需要安装插件:SonarQubeScan......
  • docker--k8s---终端terminal和普通程序以及jupyter notebook-创建永久的静态环境变量-
    终端terminal和普通程序linux系统的中主要有两种启用系统环境的情况,一种是用户登录,比如进入bash或者sh等命令行操作shell界面,一种是用户不登录,而是程序自动运行。根据两种情况,适用的创建永久的环境变量的方式就会有所不同。创建永久的静态环境变量静态环境变量是指内容不会变......
  • 静态路由实验+实验拓扑
    路由器依靠路由表转发数据路由表的产生方式:1.直连路由,将接口配置好IP地址后自动产生2.静态路由,由管理员手动配置,添加所需路由语法格式:iproute-static目标网段掩码下一跳最终实现全网通信搭建实验如下PC1属于192.168.1.0网段,PC2属于192.168.3.0网段,PC3属于192.168.4.0网段,目的实......
  • SpringBoot静态资源
    访问顺序:Controller->静态资源->404静态资源默认访问路径前端访问:http://localhost:8080/page4.htmlclasspath:/staticclasspath:/publicclasspath:/resourcesclasspath:/META-INF/resources自定义访问路径自定义后默认访问路径失效yml配置文件配置spring: #匹配方式-即前缀 mvc......
  • centos7桌面版静态路由设置
    1.打开ip设置面板 2.将动态地址改为手动设置  3.在address中分别设置ip地址,子网掩码,网关路由 ......
  • 博弈论:移棋子游戏
    给定一个有 N 个节点的有向无环图,图中某些节点上有棋子,两名玩家交替移动棋子。玩家每一步可将任意一颗棋子沿一条有向边移动到另一个点,无法移动者输掉游戏。对于给定的图和棋子初始位置,双方都会采取最优的行动,询问先手必胜还是先手必败。输入格式第一行,三个整数N,M,K,N 表示......