Improving Zero-Shot Coordination Performance Based on Policy Similarity 2023-ICAPS

时间：2023-02-24 19:35:30浏览次数：50

标签：Shot 训练 Similarity 协调智能 ICAPS Policy 陌生

基于策略相似度的零样本协调表现改进

总结：

这篇论文本质上是研究智能体的泛化性能，文中涉及的问题是在一个常规多智能体系统中的智能体如果要与新加入的或者说没有交互过的智能体一起训练的协调能力比较差，从而导致合作程度不够影响收益。文章针对这个问题先是研究了影响智能体协调能力的参数之后利用该参数采取特殊的具有鲁棒性的训练方法来解决上述问题。

实验环境：

Hanabi：一个纸牌游戏，简单来说有五种颜色的牌，每个颜色的牌有1-5五张，初始每个人五张牌，游戏目标需要按特定顺序出牌获取高分。每个人都可以看到任何一个人的牌，存在特定指令的牌，打出去特定的队友就需要出特定的牌从而得分，出错则得到惩罚。在这样的情境下，如果是熟悉的队友则可以采取一些暗号，陌生的新队友则不行这就是所谓的协调能力。

具体研究内容：

先是对影响因素进行研究：
- 定义与常规伙伴训练的价值函数
- 定义与陌生智能体的价值函数
  
  其中M是训练框架，带标识的是陌生框架
- 定义Conditional Policy Similarity(策略相似度)，文中进行猜想如果一个智能体遇到的陌生智能体和原先伙伴智能体的策略相近那么协调性能也会很好，因此提出该衡量尺度
  
  具体实现采用蒙特卡洛方法对两条训练轨迹进行估计
之后针对上述提出的CPS参数进行实验，验证其与交叉训练最后得分的关系

发现得分与相似性呈线性关系
基于上述结果可知，想要提高最后的分数，较好的方案是提高策略相似性，但是对于未知的智能体显然是无法实现的，因此将采用固定策略相似性进行以提高游戏分数的训练，这就是本文提出的解决方法。

标签：Shot,训练,Similarity,协调,智能,ICAPS,Policy,陌生
From： https://www.cnblogs.com/e557/p/17152826.html

触发模式和EPOLLONESHOT
触发模式和EPOLLONESHOT1.基本概念水平触发:LT缺省的工作模式，当被监控的文件描述符上有可读写的事件发生时，epoll_wait()就会给用户通知，如果用户没有一次的将数据读......
兼容oracle的edit_distance_similarity 比较两个字符串相似度
瀚高数据库目录环境症状问题原因解决方案报错编码环境系统平台：Linuxx86RedHatEnterpriseLinux6版本：4.5.7症状在进行应用适配过程中会遇到用户使用oracle的SYS.UTL_MAT......
全面解决uiautomatorviewer /Appium元素检查出错 Error taking device screenshot: EO
问题描述：AndroidAPP自动化测试启用uiautomatorviewer工具，点击左上角手机图标后报错：Errortakingdevicescreenshot:EOF现象如下：出现的原因很多种，常见的有以......
The POM for xxxxxx:jar:1.0-SNAPSHOT is missing, no dependency information availa
解决方案：该错误表示的是pom文件中相应依赖找不到进入pom文件中删除"相应错误"的依赖。衍生问题：既然idea显示找不到相应的依赖，那为什么在maven刷......
解决 Ubuntu 22.04 下 flameshot 截图工具无法使用的问题
问题描述flameshot是Linux端广受好评的一款截图工具，但在Ubuntu22.04中，安装完成后却不能使用，表现为截图命令无响应，或截图过程报错通过查阅flameshot仓库的issue......
Decoupling Zero-Shot Semantic Segmentation论文阅读笔记
摘要现有的方法将零样本语义分割（Zero-shotsemanticsegmentation，ZS3）视为逐像素的zs分类，并且使用仅用文本预训练的模型来完成已知类到未知类的知识迁移，而文本图像预训练模......
setting.xml的mirror、mirrorOf和pom.xml的repositories、repository的关系关联snapsh
setting.xml的mirror、mirrorOf和pom.xml的repositories、repository的关系关联snapshots带有时间错问题解决方案nexus3.8私有仓库https://blog.csdn.net/Michaelwubo/a......
Xbox One 手柄在 Steam 上截图 - Xbox One Controller Gamepad Screenshot on Steam
Steam手柄如何截图/XboxOne手柄怎么截图/Xbox旧手柄怎么截图?答案如下:via:Howtotakescreenshotsusingxboxonecontroller?::HelpandTipsGuide+R......
Windows: Screenshot
全屏:到clipboardfn+printscreen 保存到C:\Users\Memento\Pictures\Screenshotsfn+win+printscreen f SnippingToolwin+shift......
[论文阅读] StrokeGAN+: Few-Shot Semi-Supervised Chinese Font Generation with Str
pretitle:StrokeGAN+:Few-ShotSemi-SupervisedChineseFontGenerationwithStrokeEncodingaccepted:arxiv2022paper:https://arxiv.org/abs/2211.06198code:......

Improving Zero-Shot Coordination Performance Based on Policy Similarity 2023-ICAPS

基于策略相似度的零样本协调表现改进

总结：

实验环境：

具体研究内容：

相关文章

赞助商

阅读排行