首页 > 其他分享 >网络社团检测20年,哪些方法正在冉冉升起?

网络社团检测20年,哪些方法正在冉冉升起?

时间:2022-08-23 08:55:18浏览次数:66  
标签:冉冉升起 20 检测 Rev 网络 算法 Phys 社团

转自:网络社团检测20年,哪些方法正在冉冉升起?

最近Nature Physics的一篇评论文章中,网络科学家Santo Fortunato和Mark Newman梳理了复杂网络社团检测领域近20年来主要问题、方法及未来发展方向。本文是对这篇文章的总结与解读。

研究领域:社团检测、网络科学,网络嵌入

image.png

论文题目:

20 years of network community detection

论文地址:

https://www.nature.com/articles/s41567-022-01716-7

一、研究网络社团结构的必要性

网络存在于我们生活的许多方面,从在线和离线的个人关系社交网络,基因、代谢物和神经元之间相互作用的生物网络,到互联网、基础设施和交通网络等技术网络。

网络的一个显著特征是它们的社团结构——将节点组织成组,其中同一组中的节点紧密连接或共享相似的特征或角色(图1)。网络中社团检测的算法方法已经在许多学科中有了广泛的应用。

image.png

图1. 社会网络的社团结构

节点是脸书的用户,而边缘则代表了脸书的友谊。使用InfoMap算法发现了用不同颜色表示的社团。

关于社团检测问题的早期研究可以追溯到20世纪80年代的社会学文献,但在20年前Girvan和Newman的工作之后,这个问题引起了物理学界的广泛关注。

二、社团检测总体框架

在Santo Fortunato和Mark E.J.Newman最新发表于Nature Physics的文章中,作者回顾了过去20年在网络社团结构检测方面的进展。主要包括以下工作

1、社团结构定义

首先明确在大多数情况下,社团被定义为不重叠的节点组,使得组内的边比它们之间的多,但是这个定义仍然留下了许多可能性,并且相应地有许多计算方法。

2、社团检测主要方法概述

最常见的方法是基于优化的。为网络的每个可能的社团划分分配一个分数,这样“好的”划分获得高分,然后寻找得分最高的划分。有多种分配分数的方法。最流行的方法利用了被称为模块度的质量函数,它明确支持在社团内具有许多边的划分。

近年来受到广泛关注的优化方法的另一种变体是基于统计推断的。在这种方法中,社团不仅是网络结构的一个特征,而且是它的一个主要驱动因素:节点之间的连接正是因为它们所属的社团,就像在社交网络具有相似兴趣的人的情况或具有相似主题的网页。一个“好的”社团结构是模型以高概率生成观察到的网络结构,因此该概率可以用作寻找最佳社团划分的评分函数。

第三类主要的社团检测算法依赖于社团结构和发生在网络上的动态过程之间的联系,特别是随机游走。由于网络社团之间通常只有稀疏连接,网络上的随机游走将倾向于在社团内徘徊,因此可以使用随机游走的概率分布进行社团检测。

3、全局和局部

尽管这些社团检测方法工作良好,但所有这些方法都依赖于整个网络结构,这并不总是理想的。

有时,人们可能只想知道一个小区域内的社团,并希望避免分析整个事件的计算负担。更重要的是,在某些情况下,对完整网络的关注可能会导致有问题的结果。例如,模块度最大化返回的结果依赖于网络的总体大小,从而产生了所谓的分辨率限制,类似的限制也出现在其他方法中。这些问题可以通过引入控制分辨率规模的参数,或通过构建一个嵌套的划分层次结构,允许人们探索更小的社团规模来缓解。但另一种选择是采用局部方法进行社团检测,工作原理通常是通过在指定的种子节点周围构建单个社团,贪婪地添加节点,直到达到某个质量函数的局部最优值,这是一种计算效率很高的方法。

4、基准测试和性能测试

鉴于社团检测的大量相互竞争的方法,一个关键问题是如何在其中进行选择。

性能通常通过算法在恢复人工基准网络中已知社团方面的成功来衡量。为了解决这个问题,已经提出了更现实的SBM变体,例如度-校正SBM和LFR模型,后者近年来成为标准基准。算法在恢复这些网络中的已知社团方面的成功通常是使用信息论度量来估计的,例如标准互信息。

上述所有方法在基准测试中通常都具有良好的性能,尽管当测试网络中的社团结构变弱时会出现有趣的转折。然而,令人惊讶的是,社团检测实际上在达到这一点之前就失败了:在参数空间中存在一个大小不为零的区域,其中社团存在于网络中,但算法无法找到它们。已经正式证明存在一个尖锐的相变点,即可检测性阈值,低于该阈值,所有算法都必定无法找到隐藏的结构。这一结果不仅对社团检测,而且对更普遍的网络科学也具有指导意义。它告诉我们,有一些关于网络的问题有明确的答案,但却不可能找到这些答案。

量化社团检测算法性能的另一种方法是衡量它们在真实网络中恢复已知真实社团的能力。这样做的优点是可以在真实环境中测试性能,但缺点是很少确切地知道真实社团,因此正确答案存在一些模糊性。

在许多情况下,人们使用某种节点属性或元数据作为真实社团的代理,但不能保证这些元数据与社团完全对应,尽管有经验证据表明两者往往是相关的。或者,人们可以利用这种相关性,创建通过结合元数据知识和网络结构来推断社团的算法,而这样的算法,至少在一些研究中,似乎优于那些仅基于结构的算法。

5、社团重叠结构、层次结构、嵌入结构

到目前为止,我们关注的是将一个网络划分为离散的、不重叠的社团的经典问题,但也有一系列对其他类型结构的变体和扩展。

在社交网络和其他一些网络中,相同节点属于多个社团的重叠或混合成员社团很常见。术语“核心-外围结构”描述的网络分为高密度组和低密度组,具有密集的核心和较稀疏的外围,或具有不同密度的较大嵌套组。所有这些结构类型都可以使用模块度变体或统计模型来检测。

稍远一点的领域是具有潜在空间结构或分层的网络。这些网络中具有(或可以指定)与边的位置相关的数值。分层可以被认为是一种具有连续的、标量值的社团标签的社区结构,而不是离散的分类标签。每个节点上也可以有多个数值,并将其视为空间中定位节点的坐标,边往往位于附近节点之间,这种方法称为网络嵌入。存在一系列算法,用于在低维空间中查找网络嵌入,即使节点值事先未知,也可以有效地推断节点值。

网络嵌入算法包括经典方法,如弹簧嵌入算法和拉普拉斯谱嵌入,这最初是考虑网络可视化开发的,统计方法更类似于社团检测的连续版本。在实践中,表示学习方法与本评论中描述的方法有很大不同,通常采用深度学习或神经网络方法。然而,如果将得到的分数视为几何空间中的坐标,则表示学习可以给出与嵌入方法类似的结果。除了对自身感兴趣之外,嵌入还提供了另一种检测标准离散社团的途径:可以将社团定义为嵌入空间中紧密相连的节点组,并使用经典数据聚类方法检测此类群体。

三、展望

网络中的社团检测是一个正在进行的积极研究的领域。新算法的开发继续受到极大的关注,特别关注于提高准确性,提供正式的性能保证,并开发计算高效的方法,应用于非常大的数据集。在数学和理论计算机科学中,已经并将有广泛的限制算法性能和形式检测边界的工作。

另一个感兴趣的领域是为网络结构开发新的统计模型,既用于生成基准网络,也用于社团推理算法和其他更一般的结构形式的推理算法。我们设想在措施方面取得进一步的进展,特别是基于信息理论原则,以描述社团,比较网络的替代划分,并将划分聚为有代表性的群体。表示学习的进步将使我们能够利用多种数据类型进行社团检测,而不仅仅是网络结构,为解决问题提供新的强大方法。

最后,社团检测方法的应用令人眼花缭乱,揭示了物理学、生物学、工程学、计算机科学、社会科学等领域的网络结构。

参考文献

  1. Newman, M. E. J. Networks (Oxford Univ. Press, 2018).

  2. Fortunato, S. Phys. Rep. 486, 75–174 (2010).

  3. Wasserman, S. & Faust, K. Social Network Analysis: Methods and Applications (Cambridge Univ. Press, 1994).

  4. Girvan, M. & Newman, M. E. J. Proc. Natl Acad. Sci. USA 99, 7821–7826 (2002).

  5. Newman, M. E. J. & Girvan, M. Phys. Rev. E 69, 026113 (2004).

  6. Newman, M. E. J. Phys. Rev. E 69, 066133 (2004).

  7. Guimera, R., Sales-Pardo, M. & Amaral, L. A. N. Phys. Rev. E 70,

  8. 025101(R) (2004). Blondel, V. D., Guillaume, J.-L., Lambiotte, R. & Lefebvre, E. J. Stat. Mech. 2008, P10008 (2008).

  9. Holland, P. W., Laskey, K. B. & Leinhardt, S. Social Networks 5, 109–137 (1983).

  10. Peixoto, T. P. Phys. Rev. Lett. 110, 148701 (2013).

  11. Rosvall, M. & Bergstrom, C. T. Proc. Natl Acad. Sci. USA 105, 1118–1123 (2008).

  12. Fortunato, S. & Barthelemy, M. Proc. Natl Acad. Sci. USA 104, 36–41 (2007).

  13. Reichardt, J. & Bornholdt, S. Phys. Rev. E 74, 016110 (2006).

  14. Peixoto, T. P. Phys. Rev. X 4, 011047 (2014).

  15. Andersen, R., Chung, F. & Lang, K. in Symposium on Foundations of Computer Science (FOCS’06) 2006 47th Annual IEEE 475–486 (IEEE, 2006).

  16. Lancichinetti, A., Radicchi, F., Ramasco, J. J. & Fortunato, S. PLoS ONE 6, e18961 (2011).

  17. Danon, L., Diaz-Guilera, A., Duch, J. & Arenas, A. J. Stat. Mech. 2005, P09008 (2005).

  18. Albert, R. & Barabási, A.-L. Rev. Mod. Phys. 74, 47–97 (2002).

  19. Karrer, B. & Newman, M. E. J. Phys. Rev. E 83, 016107 (2011).

  20. Lancichinetti, A., Fortunato, S. & Radicchi, F. Phys. Rev. E 78, 046110 (2008).

  21. Fred, A. L. N. & Jain, A. K. in Proc. 2003 IEEE Computer Soc. Conf. Computer Vision Pattern Recognition 128–136 (IEEE, 2003).

  22. Lancichinetti, A. & Fortunato, S. Phys. Rev. E 80, 056117 (2009).

  23. Decelle, A., Krzakala, F., Moore, C. & Zdeborová, L. Phys. Rev. E 84, 066106 (2011).

  24. Massoulié, L. in Proc. 46th Annual ACM Symposium Teory of Computing 694–703 (ACM, 2014).

  25. Mossel, E., Neeman, J. & Sly, A. Probab. Teory Relat. Fields 162, 431–461 (2015).

  26. Hric, D., Darst, R. K. & Fortunato, S. Phys. Rev. E 90, 062805 (2014).

  27. Newman, M. E. J. & Clauset, A. Nat. Commun. 7, 11863 (2016).

  28. Peel, L., Larremore, D. B. & Clauset, A. Sci. Adv. 3, e1602548 (2017).

  29. Clauset, A., Moore, C. & Newman, M. E. J. Nature 453, 98–101 (2008).

  30. Palla, G., Derenyi, I., Farkas, I. & Vicsek, T. Nature 435, 814–818 (2005).

  31. Airoldi, E. M., Blei, D. M., Fienberg, S. E. & Xing, E. P. J. Mach. Learn. Res. 9, 1981–2014 (2008).

  32. Csermely, P., London, A., Wu, L.-Y. & Uzzi, B. J. Complex Netw. 1, 93–123 (2013).

  33. Rombach, M. P., Porter, M. A., Fowler, J. H. & Mucha, P. J. SIAM J. Appl. Math. 74, 167–190 (2014).

  34. Goyal, P. & Ferrara, E. Knowledge-Based Syst. 151, 78–94 (2018).

  35. Hamilton, W., Ying, Z. & Leskovec, J. in Proc. 31st International Conference on Neural Information Processing Systems (NIPS’17) 1025–1035 (MIT Press, 2017).

  36. Hof, P. D., Rafery, A. E. & Handcock, M. S. J. Am. Stat. Assoc. 97, 1090–1098 (2002).

  37. Newman, M. E. J. & Peixoto, T. P. Phys. Rev. Lett. 115, 088701 (2015).

标签:冉冉升起,20,检测,Rev,网络,算法,Phys,社团
From: https://www.cnblogs.com/wangzheming35/p/16614907.html

相关文章

  • [2002年NOIP普及组] 选数
    一个判断素数的函数另一个函数大体分为:ans=ans+a[n+1];pd(n+1,m+1);ans=ans-a[n+1];//回溯pd(n+1,m);//下一种方案注意:不同组合算不同种#include<bits/stdc++.h>usin......
  • 筛选类型数据和创建日期大于2022年1月1日
    #筛选类型数据和创建日期大于2022年1月1日,根据shaixuanleixingandbiaoti.py修改classShaiXuanLeiXingAndBiaoTi:def__init__(self,file_name):self.file......
  • [JSOI2007]文本生成器【AC自动机+DP】
    下定决心想要将这份爱意传达给你,与你在一起的每一刻总是那么值得珍藏,你的存在左右着我的思绪,实在是不想错过这样的美好,真的不和我在一起吗?我的学术生涯,虽然有点奇妙,......
  • 2022.8.22 颓废记录
    Preface没有序言Content[luoguP4059][Code+#1]找爸爸题面太长难以概括,不写简要题目了QAQ。首先发现,肯定没有两个对应位置都是空格的,否则可以去掉让答案更优。因此......
  • 2022-08-22 马特起航
    嘻嘻,马特准备在博客园更新文章啦,希望这次能够坚持下来,尽量每周能够更新一篇文章。希望自己的文章,无论是技术笔记还是生活随笔,都能够尽量真实反馈自己的状态,不求能给别人提......
  • ECfinal2021部分题解
    把赛中没有过的题争取补一下题目链接:https://codeforces.com/gym/103861C:其实,最后每一种字符只有两种状态:1.出现了x,此时就已经知道该字符有多少个了2.没有出现x,那么相......
  • 【2022.8.22】前端开发(1)
    学习内容概要前段简介HTTP超文本传输协议HTML简介head内常见标签body内常见标签内容详细前段简介1.前段与后端的本质前段:与用户直接打交道的操作界面都......
  • 《GB12557-2010》PDF下载
    《GB12557-2010木工机床安全通则》PDF下载《GB12557-2010》简介本标准规定了木工机床的安全技术要求;本标准适用于除木工手提机外的所有木工机床。 《GB12557-20......
  • 《GB14925-2010》PDF下载
    《GB14925-2010实验动物环境及设施》PDF下载《GB14925-2010》简介本标准规定了实验动物及动物实验设施和环境条件的技术要求及检测方法,同时规定了垫料、饮水和笼具的......
  • 再探 游戏 《 2048 》 —— AI方法—— 缘起、缘灭(7) —— Python版本实现的《2048》游
    《2048》游戏在线试玩地址:https://play2048.co/  如何解决《2048》游戏源于外网的一个讨论帖子,而这个帖子则是讨论如何解决该游戏的最早开始,可谓是“缘起”:Whatis......