混合动机强化学习中的社会多样性与社会偏好
总结:
本质是在研究当智能体群体中的个体具有独特性质时在困境强化学习中对结果的影响。提出了一个社会价值偏向取向的概念来使得群体中的智能体异质之后进行对比实验,实质上还是对奖励函数的更改,但是奖励函数具有多种形式,不是具体的。
环境:
- Harvest Patch:每一轮初始都有随机出现的Apple Patch代表一个局部区域,里面的再生苹果也不会超出这个区域,区域内所有苹果被收集完就不可逆(再生率取决于半径内的苹果数量,没有苹果则不会再生)。困境在于,如果还剩下最后一个苹果,是否会有人为了眼前的利益直接获取还是放在那等他重生,这样群体就会有更大的收益。智能体具有惩罚能力,惩罚代价-1,被惩罚者-50。
- cleanup环境
具体实现:
- 同质性和异质性:
异质性实际上就是群体中的个体在训练中的反应不同,或者说奖励函数不同;同质性就是奖励结构一致 - 举个例子:合作偏向性的个体和竞争偏向性的个体
上面是合作的变形,考虑了他人的奖励,下面是竞争个体奖励变形,则是考虑了与他人之间的奖励距离 - Social Value Orientation
初始的角度决定了个体的奖励函数结构,实际上决定了个体的性质 - 奖励结构:
状态价值函数
训练过程得到的价值取向的角度
效用值计算,最终使用A2C算法训练