《Social Diversity and Social Preferences in Mixed-Motive Reinforcement Learning》 2020-AAMAS

时间：2022-12-23 20:45:42浏览次数：59

标签：Diversity 函数个体奖励苹果 AAMAS Social 群体

混合动机强化学习中的社会多样性与社会偏好

总结：

本质是在研究当智能体群体中的个体具有独特性质时在困境强化学习中对结果的影响。提出了一个社会价值偏向取向的概念来使得群体中的智能体异质之后进行对比实验，实质上还是对奖励函数的更改，但是奖励函数具有多种形式，不是具体的。

环境：

Harvest Patch：每一轮初始都有随机出现的Apple Patch代表一个局部区域，里面的再生苹果也不会超出这个区域，区域内所有苹果被收集完就不可逆(再生率取决于半径内的苹果数量，没有苹果则不会再生)。困境在于，如果还剩下最后一个苹果，是否会有人为了眼前的利益直接获取还是放在那等他重生，这样群体就会有更大的收益。智能体具有惩罚能力，惩罚代价-1，被惩罚者-50。
cleanup环境

具体实现：

同质性和异质性：

异质性实际上就是群体中的个体在训练中的反应不同，或者说奖励函数不同；同质性就是奖励结构一致
举个例子：合作偏向性的个体和竞争偏向性的个体

上面是合作的变形，考虑了他人的奖励，下面是竞争个体奖励变形，则是考虑了与他人之间的奖励距离
Social Value Orientation

初始的角度决定了个体的奖励函数结构，实际上决定了个体的性质
奖励结构：
- 状态价值函数
- 训练过程得到的价值取向的角度
- 效用值计算，最终使用A2C算法训练

标签：Diversity,函数,个体,奖励,苹果,AAMAS,Social,群体
From： https://www.cnblogs.com/e557/p/17001200.html

《Emergent Cooperation from Mutual Acknowledgment Exchange》 2022-AAMAS
从相互交换确认中产生合作总结：为了改进传统的激励其他代理人机制，其存在隐私侵犯的问题，文中提出一种两阶段的请求和回应机制，即即使想要激励其他人送出的东西还需要得到......
ionic2实现社会化分享Social Sharing
SocialSharing插件：SocialSharing参考：phonegap/cordova开发中的分享功能在ionic2项目下，执行如下语句安装插件：$ionicpluginaddcordova-plug......
《Learning to Resolve Alliance Dilemmas in Many-Player Zero-Sum Games》 2020-AAM
学习解决多人零和博弈中的联盟困境总结：将两人的零和博弈扩展到多人零和博弈，并将多人零和博弈中的联盟问题转为社会困境问题用基于强化学习的方法进行解决。先是说明了一......
《Consequentialist Conditional Cooperation in Social Dilemmas with Imperfect Inf
环境：Fishery：湖两岸有两个钓鱼人互相观察不到对方的动作，湖里有幼鱼和成熟鱼奖励分别为1和2，鱼游到对岸变成成熟鱼。合作方案即将幼鱼放给对岸，背叛即被诱惑吊幼鱼。PongPl......
Homework 5: Social networking and recommendation systems
Homework5:SocialnetworkingandrecommendationsystemsBackgroundRecommendationsystemsFacebooksuggestspeopleyoumaybe(ormightwanttobe)friendswi......
《Prosocial learning agents solve generalized Stag Hunts better than selfish one
环境：猎鹿博弈(即代理人要么选择有风险的合作政策，单独代理人选择会导致低收益；要么选择一个安全的合作政策，无论怎么样都会有安全收益)存在多个纳什均衡的环境h>c>=m>......
PAT (Advanced Level) Practice——Social Clusters
题目这是昨天的博客。（拆东墙补西墙。。）今天的博客将会在明天凌晨一点打完比赛后发。昨天在帮我的一位同学看题，所以就顺便谈谈这道题。这道题的解题思路还是很......
The Social Web: data representation
参考链接：clickhere本次assignment所用的jupyterbook为a2_datarep.ipynb:{"cells":[{"cell_type":"markdown","metadata":{"id":"dcMf4aubeMI9......
谣言检测（）《Rumor Detection with Self-supervised Learning on Texts and Social Grap
论文信息论文标题：RumorDetectionwithSelf-supervisedLearningon TextsandSocialGraph论文作者：YuanGao,XiangWang,XiangnanHe,HuaminFeng,YongdongZh......
谣言检测(RDCL)——《Towards Robust False Information Detection on Social Network
论文信息论文标题：TowardsRobustFalseInformationDetectiononSocialNetworkswithContrastiveLearning论文作者：ChunyuanYuan,QianwenMa,WeiZhou,Jizhong......

《Social Diversity and Social Preferences in Mixed-Motive Reinforcement Learning》 2020-AAMAS

混合动机强化学习中的社会多样性与社会偏好

总结：

环境：

具体实现：

相关文章

赞助商

阅读排行