首页 > 其他分享 >用迁移学习促进竞争影响最大化中的强化学习

用迁移学习促进竞争影响最大化中的强化学习

时间:2024-10-17 18:48:12浏览次数:9  
标签:最大化 训练 模型 网络 学习 迁移

【文献阅读】【2018 IEEE/WIC/ACM (WI)】 Boosting Reinforcement Learning in Competitive Influence Maximization with Transfer Learning

目录

1. 问题背景
企业的目标是在竞争中推销自己的产品,并试图获得比其他企业更多的利润。
2. 主要任务
使用迁移学习方法在较小的传播网络上训练传播模型(传播策略),然后迁移到较大的网络中使用。要求在源网络上训练的模型迁移到更大的社交网络中使用时传播效果更好或相似,进而节省时间。
3. 模型与方法

  • 竞争线性阈值模型(TV-CLT)加入了时间因素
  • 强化学习用于寻找最优策略
  • 迁移学习用于迁移网络模型

4. 实验结论
文章基于竞争线性阈值模型(TV-CLT)使用迁移学习和强化学习方法解决了竞争影响力最大化问题(TC-CIM)。

一、背景知识

1. 影响力最大化(Influence Maximization)
竞争影响最大化(CIM)同样是影响力最大化(IM)问题,目的同样是扩大影响力。
影响力最大化相关介绍请参考:【大数据网络传播模型和算法-陈卫】——影响力最大化.
2. 竞争影响最大化(Competitive Influence Maximization)
竞争影响最大化(CIM)问题考虑提供相同或相似产品的多方在社交网络中争夺买家或用户。即用户在生活中会受到两种或多种传播影响。以市场营销为例,企业需要使用某种策略(强化学习寻找下一轮最优解)来投放自己的产品(种子节点),使得在别的公司的影响到来之前影响该用户(节点),从而达到利润最大化(影响力最大)。
3. 线性阈值模型(Linear Threshold Model)
在这里插入图片描述
详细介绍参考:【大数据网络传播模型和算法-陈卫】——影响力最大化.
4. 迁移学习(Transfer Learning)
强化学习中迁移学习的目的是利用在源任务中获得的知识来更快地学习目标任务。

二、相关工作

1. 时变竞争线性阈值模型(TV-CLT)
文章在线性阈值模型(LT)的基础上定义了一种新的传播模型——时变竞争线性阈值模型(TV-CLT)。与LT相比,TV-CLT增加了信息在扩散过程中的时间影响因素,用来反映网络传播的动态性。增加了时间衰减函数和时间传播延迟函数。
具体定义如下图所示:
在这里插入图片描述
具体传播过程为:TV-CLT模型的扩散过程与传统LT模型相同。在扩散开始时,每个顶点 v v v有一个激活阈值 θ v ∈ [ 0 , 1 ] \theta_v\in[0,1] θv​∈[0,1]。节点v在时间步长 t t t被 p p p方激活,当 ∑ u ∈ O t p w u , v ( t )   >   θ v \sum_{u\in O_t^p}w_{u,v}(t)\:>\:\theta_v ∑u∈Otp​​wu,v​(t)>θv​,其中 w u , v ( t ) w_{u,v}(t) wu,v​(t)为节点u在时间步长t之前到节点v的随时间衰减的影响边权重和时延传播,Op t为p方在时间步长t之前激活的节点集合。我们使用渐进扩散过程,也就是说,一旦一个节点v被p方激活,它将一直被p方激活,直到扩散过程结束。如果节点v可以同时被多于一方激活,那么它就会被对节点v总影响力最大的一方激活, ∀ k ∑ u ∈ O t p w u , v ( t ) > ∑ u ∈ O t p w u , v ( t ) \forall_k\sum_{u\in O_t^p}w_{u,v}(t)>\sum_{u\in O_t^p}w_{u,v}(t) ∀k​∑u∈Otp​​wu,v​(t)>∑u∈Otp​​wu,v​(t)。每一方都可以选择实施一定的策略,以提高自己在目标网络中的影响力。策略描述了一方如何在每一轮中分配预算来选择种子节点。具体来说,策略可以描述为网络状态、回合和剩余预算的函数。根据输入,该策略描述了该方在这一轮中将选择哪些种子节点。当1)没有剩余的预算,或2)达到政党的最后期限时,政党将停止选择节点。一方的总影响力将在其截止日期到达时计算。
2. 时间约束竞争影响最大化(TC-CIM)
TC-CIM问题的NP-Hard通过将其简化为一方时间约束影响最大化。使用强化学习推导最优解是不切实际的,于是文章将迁移学习的方法集成到TC-CIM问题中的强化学习中。
强化学习的目标是学习一个最优策略,以决定特定状态下采取什么行动。

三、模型建立与迁移过程

1. 建立模型:
建立学习的种子组合和种子选择(SCSS)框架来解决时间约束竞争影响最大化问题,作为迁移的基础。使用TV-CLT扩散模型传播当前活动节点的影响。并讨论了SCSS框架的环境奖励行动状态等相关变量。

  • 传播环境:
    使用TV-CLT传播模型作为实验的传播环境。
  • 奖励设置:
    给模型设置一个最大化预期积累奖励 Π Π Π,使用状态的期望累积奖励函数 V V V和给定状态-动作对的期望累积奖励 Q Q Q,来确定策略π对于最大化累积奖励 Π Π Π的效果有多好。
  • 种子策略:
    文章考虑了四种影响力最大化的行动策略,即每一轮种子节点的选择方法,基于贪心算法分别是(Degree、Weight、Blocking、SubGreedy)四种行动(种子选择)策略。一直迭代,直到种子节点分配完毕。
  • 状态特征规范化:
    使用相同的一组特征来表示网络状态,使源社会网络和目标社会网络具有相似的状态表示,以便轻松地将在源社会网络上学习到的q -解转换为目标社会网络。

2. 迁移学习:
迁移方法(Starting-Point Methods)

  • 使用Starting-Point Methods(起点转移)方法将源社交网络中多方的最终 q − t a b l e q-table q−table解转移过来,作为目标社交网络各方的起点初始 q − t a b l e q-table q−table解。首先将源社会网络的最终 q − t a b l e q-table q−table解进行迁移,并在目标社会网络的训练过程中将其作为初始 q − t a b l e q-table q−table解提供给 R L − a g e n t RL-agent RL−agent。其次,在目标社交网络上利用源策略,让它从一个更好的解决方案开始,而不是随机解决方案(零),并利用在源社会网络上学习到的最优行为来达到目标社会网络的某个状态。

3. 模型训练:
训练过程:

  • 定义源社交网络、目标社交网络以及源和目标社交网络上的训练设置
    源社交网络:从头开始训练NSQ模型并保存学习到的模型,即源q表,以便使用它来转移知识。
    目标社交网络:通过初始化目标q表作为源网络的最终q表,然后训练模型来训练NSQ-TL模型。
    目标训练设置:通过设置源网络的最终q表,初始化目标网络中的组合和选择q表。
    训练流程如下图所示:
    在这里插入图片描述
  • 数据集选取
    选取不同大小的社交网络数据集
    在这里插入图片描述
  • 模型训练
    针对竞争对手的已知策略对NSQ- b、NSQ(FB)、NSQ(CEL)五个模型进行了训练,每个模型运行1500个训练集。然后,我们选择平均奖励最高的最好的一个,进行1000个测试集的比赛。
    在竞争阶段,各算法不经探索,根据已有的组合和选择q表,使用贪心算法确定组合和选择策略。同样,在源网络上训练了5个NSQ-TL(FB)和NSQ-TL(CEL)模型,每个模型运行1500个训练集。然后选择具有最高平均奖励的最佳模型,在目标网络上使用额外的800个训练集进行进一步的再训练。在进行竞争之前,根据竞争对手的已知策略在目标网络上重新训练了三个模型。然后选择平均奖励最高的最好的一个进行竞争。
  • 参数设置:
    greedy probability = 0.5
    decay factor = 0.998
    discount factor = 0.98

四、实验结果

在这里插入图片描述在这里插入图片描述

实验结果表明,当迁移模型在更大的源网络上进行训练,然后再迁移到目标网络上时,迁移模型可以达到与基线模型(从头开始训练)更好或相近的性能。当考虑到时间效率时,我们应该选择一个较小的源网络,以便快速训练模型并在目标网络上重新训练。这将显著减少训练时间,并获得与基线模型相似的结果。此外,源网络上的模型,无论是小网络还是大网络,都只训练一次,可以应用于许多目标网络进行竞争和重新训练,而不需要从头开始训练模型。

五、总结

本文提出了一种基于TV-CLT模型的迁移学习强化学习方法来解决TC-CIM问题。具体来说,我们将源网络和目标网络的状态表示归一化,以便有效地利用源网络上获得的知识。进一步,我们在RL域扩展了TL的起点方法,提出了NSQ-TL算法来解决源目标网络和代理设置之间的异构性。

标签:最大化,训练,模型,网络,学习,迁移
From: https://blog.csdn.net/Lvyizhuo/article/details/142992883

相关文章

  • 【最新】Kali linux零基础学习教程(超详细),从下载、安装到使用
    一、下载kaliLinux镜像https://www.kali.org/get-kali/#kali-installer-images二、开始安装kalilinux基于Debianlinux,所以选择的时候安装你下载的iso镜像来选择32位或者64位。1、选择图形化安装2、中文简体,continue继续----中国—汉语3、网络自动配置失败,问题......
  • 小白怎么入门CTF,看这个就够了(附学习笔记、靶场、工具包下载)
     CTF靶场:CTF刷题,在校生备战CTF比赛,信安入门、提升自己、丰富简历之必备(一场比赛打出好成绩,可以让你轻松进大厂,如近期的各种CTF杯),在职人员可以工作意外提升信安全技能。渗透实战靶场:挖洞、渗透实战(web、域、横向渗透),适合实战能力需要大幅度提升的同学。一、CTF入门最近很多......
  • 为什么很多人自学黑客,没过多久就放弃了(掌握正确的学习路线,才不会半途而废)
     网络安全是一个不断发展和演变的领域,以下是一个网络安全学习路线规划,旨在帮助初学者快速入门和提高自己的技能:基础知识:网络安全的基础知识包括网络结构、操作系统、编程语言等方面的知识。学习这些基础知识对理解网络安全的原理和技术至关重要。网络协议:了解各种网络协议的......
  • 【深度学习代码调试2】环境配置篇(中) -- 列出conda环境中所有env的pytorch版本
    【深度学习代码调试2】环境配置篇(中)--列出conda环境中所有env的pytorch版本写在最前面如何检查所有Conda环境中的PyTorch版本(并重点提示PyTorch1.7.1版本)1.列出所有Conda环境2.检查每个环境中的PyTorch版本方法1:使用Python命令检查PyTorch版本方法2......
  • 如何调整batch size和学习率之间的关系?
    一般来说,我们batchsize大一些,则learningrate也要大一些。且有一个数学关系,当我们改变batch_size的时候,可能遵循这样的规律:newlearningrate=oldlearningra......
  • 2024/10/17日 日志 --》关于MySQL中的 约束、多表查询的初步学习笔记与整理
    今天推进了关于约束以及多表查询的内容,下一步是事务以及关于连接数据库JDBC的学习。点击查看代码----约束--1.概念:--·约束是作用于列上的规则用于限制加入表的数据--·约束的存在保证了数据库中数据的正确性、有效性和完整性--2.约束的分类--非空约束NOTNULL:......
  • Tang Primer 25K学习记录
    TangPrimer25KTangPrimer25K是基于GW5A-LV25MG121所设计的一款极小封装的核心板(23x18mm),并配套全引脚引出(除MIPI高速脚外)的25KDock底板。(国产高云FPGA),作为学习使用,非常小巧,大家可以购买(底板的3d保护壳可以使用博主的,建议打印一个,因为fpga开发板这种海上比较脆弱,如果......
  • CSS的学习(二)
    本篇呢,我们接着学习CSS,浮动和定位是两者常用的布局方式,可以实现更加丰富和灵活的网页效果。 有实操代码和效果方便理解一、浮动CSS提供了三种传统布局方式(简单说,就是盒子如何进行排列顺序):普通流(标准流)浮动定位这三种布局方式都是用来摆放盒子的,盒子摆放到合适位置,布......
  • 元器件学习之--------运算放大器
    一、技术理论1、运放符号    1、同相输入端                3、反向输入端    5、电源正端          2、电源负端    4、输出端    运算放大器具有两个输入端和一个输出端,如图所示,其中标有“+”号的......
  • 前端学习1——HTML
    1Web标准的构成主要包括结构、表现和行为三个方面标准说明结构用于对网页元素进行整理和分类(身体)表现用于设置网页元素的版式、颜色、大小等外观样式(外观装饰)行为网页模型的定义及交互的编写(动作)2HTML基本结构标签每个网页都会有一个基本的结构标签(......