首页 > 其他分享 >博弈论学习笔记

博弈论学习笔记

时间:2024-10-25 22:00:08浏览次数:3  
标签:对手 博弈 博弈论 笔记 学习 平衡 纳什 考虑

因为博弈一直很菜所以撰写此文以记之

# 基础模型

* Wilson博弈
* Nim博弈
* SG函数

# 破题关键

* 如果是两个人在对抗可以考虑引入纳什平衡的思想
 + 即在一方一组支配策略下,对手再蠢也不会低于一个值,对手再聪明也不会高于一个值
 + 而且随着一步一步决策进行,对手的上下界会不断缩进
 + 因此先用纳什平衡(或者minmax对抗),做出平衡决策,然后考虑:
   > 先更改其中一方的某个操作来获取更优值(对于对手而言)
   > 然后考虑我方是否能通过某些操作来抵消对方的更改
   > 如果可以就说明此时已经达到纳什平衡,否则就需要继续调整最终得到答案
 + 注意分析结果状态的一些特殊性质
 + 基本思路:
   > 首先得到一些先手必胜的状态
   > 然后考虑自己操作完之后不能出现上面这种状态
   > 然后就一般可以得出基本策略了

标签:对手,博弈,博弈论,笔记,学习,平衡,纳什,考虑
From: https://www.cnblogs.com/chenhx-xcpc/p/18503347

相关文章

  • 深度学习和传统机器学习相比具有哪些优势
    深度学习和传统机器学习都在多个领域中有着广泛的应用。然而,深度学习具有以下几方面的优势:1.数据规模扩展能力;2.自动特征学习;3.更强的表征能力;4.多层结构带来的复杂模型拟合能力;5.广泛应用于多媒体数据处理。其中,自动特征学习特别突出,通过深层网络结构,深度学习能够自动从原......
  • AGI大模型学习路线,从零基础到就业,神仙级教程你学会了吗?
    大模型学习路线建议先从主流的Llama开始,然后选用中文的Qwen/Baichuan/ChatGLM,先快速上手体验prompt工程,然后再学习其架构,跑微调脚本如果要深入学习,建议再按以下步骤,从更基础的GPT和BERT学起,因为底层是相通的,而且实际落地到一个系统中,应该也是大模型结合小模型(大模型在做判......
  • CUDA编程学习 (1)——CUDA C介绍
    CUDA编程学习(1)——CUDAC介绍1.内存分配和数据移动API函数CUDA编程模型是一个异构模型,需要CPU和GPU协同工作。在CUDA中,host和device是两个重要的概念,我们用host指代CPU及其内存,而用device指代GPU及其内存。CUDA程序中既包含host程序,又包含device程序,它们分......
  • Linux驱动开发学习入门第一篇
    一.如何学习Linux驱动Linux驱动开发基础Linux驱动开发是指为Linux操作系统创建能够控制和管理硬件设备的软件模块的过程。驱动程序是操作系统内核的一部分,它们负责与硬件设备通信,确保硬件能够正常工作。Linux内核提供了一个丰富的框架和API,用于简化驱动程序的开发。学习资源......
  • 红队知识学习入门(2)(安全见闻9)
    声明学习视频来自B站UP主泷羽sec,如涉及侵泷羽sec权马上删除文章笔记的只是方便各位师傅学习知识,以下网站涉及学习内容,其他的都与本人无关,切莫逾越法律红线,否则后果自负二进制与网络安全的关系(一)二进制概念二进制是计算技术中广泛采用的一种数据。它只有两个数码:0和1,......
  • 【笔记】LLM位置编码之标准位置编码
    标准位置编码起源原理证明:对于任何固定的偏移量kkk,P......
  • 冒泡排序的学习
     冒泡排序法的特点:升序排序中每一轮比较会把最大的数下沉到最底,所以相互比较的次数每一轮都会比前一轮少一次。#include<stdio.h>#include<stdlib.h>voidbubblesort(int*A,intsize){ inti,j; for(i=0;i<size-1;i++) { for(j=0;j<size-1-i......
  • SPI的学习
    工作原理SPI的工作原理基于主从架构。主设备通过四条主要信号线与一个或多个从设备进行通信:MOSI(主输出,从输入)DI(MasterOutputSlaveInput):主设备发送数据到从设备。MISO(主输入,从输出)DO(MasterInputSlaveOutput):从设备发送数据到主设备。SCLK(时钟信号):由主设备生成的时钟信号,......
  • 人工智能、机器学习领域常见的学习方式
    监督学习监督学习是机器学习的一种重要形式,在这种学习方式中,算法从带有标签的训练数据中学习模式。这些标签通常是人类专家提供的正确答案或目标输出。通过学习输入数据与相应标签之间的映射关系,模型可以预测新的、未见过的数据的标签。定义在监督学习中,训练集包含了一系......
  • 【软考中级笔记】软件设计师易混知识点归纳
    一、计算机系统1.1计算机硬件1.2计算机软件1.软件可靠性、可维护性、可用性计算软件可靠性指标公式可靠性:MTTF/(1+MTTF)可用性:MTBF/(1+MTBF)可维护性:1/(1+MTTR)MTTF(MeanTimeToFailure)平均无故障时间MTTF=∑T1/NMTTR(Meantimetorepair)平均修复时间MTTR=∑(T......