首页 > 编程语言 >大数据传播模型与算法——影响力最大化

大数据传播模型与算法——影响力最大化

时间:2024-10-17 18:48:32浏览次数:3  
标签:最大化 影响力 阈值 模型 结点 传播 算法 激活

【大数据网络传播模型和算法-陈卫】——影响力最大化【持续更新】

本人当前研究方向为影响力最大化(基于机器学习的组合优化算法)。目前在学习陈卫编著的《大数据传播模型与算法》,该系列会定期分享影响力最大化的学习内容(持续更新…),希望大家能够一起交流学习!

前言

  1. 什么是影响?
  2. 什么是影响力?
  3. 什么是影响力最大化?
  4. 影响来自哪里?
  5. 影响如何传播?
  6. 在我们生活中有哪些直观应用?

1. 什么是影响?

小到听一首歌曲、看一部电影、读一本新书、选一个餐馆,大到买一处房产、选择职业方向、选择生活的城市、确定政治观点等,我们的各种选择和决定常常受到家人、同事、朋友以及更广泛的大众倾向的影响。举个简单的例子,我在一家餐厅吃饭,我觉得非常好吃并把该观点分享给我的朋友,这就是我对朋友观点的影响。

2. 什么是影响力?

在我们听一首歌曲、看一部电影、读一本书、选一个餐馆的时候,在我们买一处房产、选择职业方向、选择生活的城市、确定政治观点的时候,我们受到了谁的影响,哪些人的影响,哪些事物的影响?我们受到每一个人,每一个事物影响的程度都是影响力。

3. 什么是影响力最大化?

影响力最大化(IM)是一种经典的组合优化问题,旨在选择少数用户,从而最大限度地扩大在线社交影响力。

4. 影响来自哪里?

企业在做新产品推广时,可以利用对用户影响力及其传播的了解,选择有影响力的用户和传播渠道,从而帮助产品推广;公益机构可以通过影响力传播推动公益事业的发展,比如增强全民健康意识,推动扶助贫困地区等;政府可以选择合适的影响力群体和渠道来扩大其政策的影响或抵御谣言的传播。

5. 影响如何传播?

Christakis 和 Fowler 利用美国一个城市上万人 32 年的医疗记录数据验证了肥胖症和吸烟行为会在社交网络中相互影响和传播。
在抖音,哔哩哔哩,小红书,微博等APP上分享作品或者发布作品都会产生影响,而观看这些作品的人会受到影响。

6. 在我们生活中有哪些直观应用?

影响力最大化研究可以应用于病毒营销、网络监控、谣言屏蔽、社交推荐等领域。深入认识影响力的产生和传播模式有助于理解人类群体和个体的行为,从而使我们能够预测人们的行为,为政府、机构、企业等部门的决策提供可靠的依据和建议。比如企业在做新产品推广时,可以利用对用户影响力及其传播的了解,选择有影响力的用户和传播渠道,从而帮助产品推广;公益机构可以通过影响力传播推动公益事业的发展,比如增强全民健康意识,推动扶助贫困地区等;政府可以选择合适的影响力群体和渠道来扩大其政策的影响或抵御谣言的传播。

第一章 网络传播模型概述和分类

网络传播模型的种类繁多,侧重点各不同。本章节介绍了随机传播模型的基础定义,并基于这个定义对常用的传播模型进行了分类。

1. 基本概念

  • 实体:代表网络传播中的对象,如用户、粉丝等更具体的对象;
  • 有向图 G = ( V , E ) G=(V,E) G=(V,E):代表一个社交网络,其中 V V V代表结点, E E E代表有向边
  • 有向边 ( u , ν ) ∈ E (u,\nu)\in E (u,ν)∈E:代表 u u u和 v v v有某种社交关系,方向代表实体在这个关系上的传播方向;那么 u u u是 v v v的入邻居, v v v是 u u u的出邻居
  • N + ( ν ) N^+(\nu) N+(ν):节点 v v v的出邻居集合, N + ( ν ) N^+(\nu) N+(ν)大小为出度
  • N − ( ν ) N^-(\nu) N−(ν):节点 v v v的入邻居集合, N − ( ν ) N^-(\nu) N−(ν)大小为入度
  • 举例:
  • 微博中明星和粉丝的关系,对于粉丝来说,粉丝们关注了明星,所以她们可以收到明星发布的动态;对于明星来说来说,他如果没有回关粉丝,他就不会收到粉丝的动态,这就是一种单向的传播。这种情况就可以建立有向图来反映社交网络传播关系。
  • 还是刚刚的例子,如果明星关注了他的粉丝们,那么他就可以收到粉丝的动态;再举个例子,微信好友默认就是一种双向的关系,这种图我们就可以使用无向图来表示,具体情况具体分析,根据实际问题的需求来建立相应的图结构

2. 网络传播模型及分类

网络传播虽然多种多样,但实质上都可看成结点上与传播实体有关的状态依据网络的连通结构而发生有规律的改变。

  • 定义 1.1 (随机传播模型)
    一个随机传播模型由下列元素给出完整刻画:
    (a)图结构 G = ( V , E ) G=(V,E) G=(V,E) ;
    (b)每个结点的状态空间 Σ \Sigma Σ;
    (c)传播概率空间 Ω \Omega Ω ;
    (d)传播事件的时间序列 ( t 1 , v 1 ) , ( t 2 , v 2 ) , ⋯   , ( t i , v i ) , ⋯ (t_1,v_1),(t_2,v_2),\cdots,(t_i,v_i),\cdots (t1​,v1​),(t2​,v2​),⋯,(ti​,vi​),⋯ , 其中 0 < t 1 ⩽ t 2 ⩽ ⋯ ⩽ t i ⩽ ⋯ 0{<}t_1\leqslant t_2\leqslant\cdots\leqslant t_i\leqslant\cdots 0<t1​⩽t2​⩽⋯⩽ti​⩽⋯ ,该序列可能是个确定性序列,也可能是个随机序列,且随机性由随机元 : ⁡ ω ∈ Ω \operatorname{:}\omega\in\Omega :ω∈Ω 确定,并与结点状态有关,如果是后者,模型要给出序列的产生方法;
    (e)每个结点的传播函数:
    F ν : ∑ N − ( ν ) ∪ { v } × Ω → Σ F_\nu{:}\sum^{\mathcal{N}^-(\nu)\cup\{v\}}\times\Omega\to\Sigma Fν​:∑N−(ν)∪{v}​×Ω→Σ
    对于任何一个在 0 时刻给定的各结点初始状态:
    { X ν , 0 ∈ ∑ ∣ ν ∈ V } \{X_{\nu,0}\in\sum|\nu\in V\} {Xν,0​∈∑∣ν∈V}
    传播过程如下:采样此次传播的随机元 ω ∈ Ω \omega\in\Omega ω∈Ω;在传播事件时刻 t i t_i ti​ , i > = 1 i>=1 i>=1,结点 v i v_i vi​改变其状态,在任何其他时刻,结点的状态保持不变。
  • 补充:因为传播过程是随机且结果具有不唯一性,传播概率空间 Ω \Omega Ω代表模型在传播过程所有随机性可能。其中一个随机元 ω ∈ Ω \omega\in\Omega ω∈Ω代表了一种传播情况。
  • 网络传播模型的分类:
    在这里插入图片描述

第二章 影响力传播的基本模型

  • 影响力拓展度:在单实体二值状态递进模型中,一个种子集合 S 0 S_{0} S0​在时刻 t > = 0 t>=0 t>=0的影响力拓展度是时刻 t t t活跃节点个数的期望值。即 σ t ( S 0 ) \sigma_t\left(S_0\right) σt​(S0​)。期望是对传播模型中的随即元 ω \omega ω取期望,即对多次随机传播结果取平均值。种子集合的影响力扩展度就是种子集合激活结点概率的和。
  • 条件假设:
    1. 若种子集合为空,则影响力拓展度为0(不考虑自激活情况);
    1. 影响的传播在下一时刻立即发生,不考虑传播延迟;
    1. 若某时刻的激活节点数量和上一时刻相同,则传播结束。

在影响力传播模型中,提出最早、研究最深入、应用最广泛的是独立级联模型(Independent Cascade Model)和线性阈值模型(Linear Threshold Model,下面首先介绍这两个模型。

1. 独立级联模型(Independent Cascade Model)

  • 定义:独立级联模型是由有向图 G = ( V , E ) G=(V,E) G=(V,E)及每条有向边上的影响概率 p ( u , ν ) p(u,\nu) p(u,ν) 唯一确定的。
  • 传播过程:在 t = 0 t=0 t=0时刻,集合

    标签:最大化,影响力,阈值,模型,结点,传播,算法,激活
    From: https://blog.csdn.net/Lvyizhuo/article/details/142965718

相关文章

  • 用迁移学习促进竞争影响最大化中的强化学习
    【文献阅读】【2018IEEE/WIC/ACM(WI)】BoostingReinforcementLearninginCompetitiveInfluenceMaximizationwithTransferLearning目录【文献阅读】【2018IEEE/WIC/ACM(WI)】BoostingReinforcementLearninginCompetitiveInfluenceMaximizationwith......
  • 【关联规则挖掘算法‌】基于模式增长的关联规则挖掘算法
    目录一、基于模式增长的关联规则挖掘算法概述二、基于模式增长的关联规则挖掘算法优缺点和改进2.1  基于模式增长的关联规则挖掘算法优点2.2  基于模式增长的关联规则挖掘算法缺点2.3  基于模式增长的关联规则挖掘算法改进三、基于模式增长的关联规则挖掘算法编程......
  • 雪花算法------用于生成数据库中的主键、消息队列的消息ID等的算法-----算法特点,id结
    雪花算法(SnowflakeAlgorithm)是一种由Twitter公司开发的分布式ID生成算法,用于在分布式系统中生成全局唯一的ID。这种算法非常适合需要高并发、低延迟以及大量唯一ID生成的应用场景,比如数据库中的主键、消息队列的消息ID等。雪花算法的主要特点包括:唯一性:生成的ID在全球范围内......
  • 算法
    1.常见算法点击查看代码*冒泡排序:重复数列,一次比较两个元素,如果顺序错误就交换*选择排序:每次选择未排序的部分最大或最小元素,放到已排序末尾*插入排序:将未排序的元素逐个插入到已排序部分的合适位置*快速排序:选择一个基准元素,将小于的放左边,大的放右边,再对左右递归进行......
  • 图论中的最小生成树算法
    错题考察的知识点是图论中的最小生成树算法,特别是Prim算法和Kruskal算法。这两种算法都是用来寻找无向连通图中的最小生成树的。最小生成树是指连接图中所有顶点的边的集合,且这些边的总权重最小,同时保证任意两个顶点之间都是连通的。Prim算法:原理:从一个任意顶点开始,逐步增加新......
  • 基于BP神经网络的CoSaMP信道估计算法matlab性能仿真,对比LS,OMP,MOMP,CoSaMP
    1.算法仿真效果matlab2022a仿真结果如下(完整代码运行后无水印):   仿真操作步骤可参考程序配套的操作视频。 2.算法涉及理论知识概要        LS估计法实现方式较为简单,其估计过程没有考虑实际信道的噪声因素。因此,特别当毫米波MIMO信道干扰较大时,其估计性能较......
  • 常用手撕非算法题
    一.带定时器和锁的LRU缓存#include<iostream>#include<unordered_map>#include<chrono>#include<mutex>#include<thread>usingnamespacestd;classLRUCache{public:typedefstructNode{//双向链表节点intkey;//在哈希中的键值,用......
  • 代码随想录算法训练营第二天|209长度最小的子数组、59螺旋矩阵
    1leetcode209长度最小的子数组题目链接:209.长度最小的子数组文章链接:代码随想录(programmercarl.com)视频链接:拿下滑动窗口!|LeetCode209长度最小的子数组思路:没有思路,看到这道题有一种想立马退出的感觉,无从下手1.1暴力搜索1.1.1python版本这个版本的新知识就是定义......
  • JVM系列(九) -垃圾对象的回收算法介绍
    一、摘要在之前的文章中,我们介绍了JVM内部布局、对象的创建过程以及运行期的相关优化手段。今天通过这篇文章,我们一起来了解一下对象回收的判定方式以及垃圾对象的回收算法等相关知识。二、对象回收判定方式当一个对象被创建时,虚拟机会优先分配到堆空间中,当对象不再被......
  • 工装识别算法 工服穿戴检测系统
    工装识别算法工服穿戴检测系统特点包括:工装识别算法工服穿戴检测系统利用图像识别技术,系统可以准确地识别工人是否穿戴了正确的工装,包括工作服、安全帽等。一旦检测到未穿戴的情况,系统将立即发出警报,并提示相关人员进行整改。工装识别算法工服穿戴检测系统对于电力作业场景,系统......