最近Nature Physics的一篇评论文章中,网络科学家Santo Fortunato和Mark Newman梳理了复杂网络社团检测领域近20年来主要问题、方法及未来发展方向。本文是对这篇文章的总结与解读。
研究领域:社团检测、网络科学,网络嵌入
论文题目:
20 years of network community detection
论文地址:
一、研究网络社团结构的必要性
网络存在于我们生活的许多方面,从在线和离线的个人关系社交网络,基因、代谢物和神经元之间相互作用的生物网络,到互联网、基础设施和交通网络等技术网络。
网络的一个显著特征是它们的社团结构——将节点组织成组,其中同一组中的节点紧密连接或共享相似的特征或角色(图1)。网络中社团检测的算法方法已经在许多学科中有了广泛的应用。
节点是脸书的用户,而边缘则代表了脸书的友谊。使用InfoMap算法发现了用不同颜色表示的社团。
关于社团检测问题的早期研究可以追溯到20世纪80年代的社会学文献,但在20年前Girvan和Newman的工作之后,这个问题引起了物理学界的广泛关注。
二、社团检测总体框架
在Santo Fortunato和Mark E.J.Newman最新发表于Nature Physics的文章中,作者回顾了过去20年在网络社团结构检测方面的进展。主要包括以下工作
1、社团结构定义
首先明确在大多数情况下,社团被定义为不重叠的节点组,使得组内的边比它们之间的多,但是这个定义仍然留下了许多可能性,并且相应地有许多计算方法。
2、社团检测主要方法概述
最常见的方法是基于优化的。为网络的每个可能的社团划分分配一个分数,这样“好的”划分获得高分,然后寻找得分最高的划分。有多种分配分数的方法。最流行的方法利用了被称为模块度的质量函数,它明确支持在社团内具有许多边的划分。
近年来受到广泛关注的优化方法的另一种变体是基于统计推断的。在这种方法中,社团不仅是网络结构的一个特征,而且是它的一个主要驱动因素:节点之间的连接正是因为它们所属的社团,就像在社交网络具有相似兴趣的人的情况或具有相似主题的网页。一个“好的”社团结构是模型以高概率生成观察到的网络结构,因此该概率可以用作寻找最佳社团划分的评分函数。
第三类主要的社团检测算法依赖于社团结构和发生在网络上的动态过程之间的联系,特别是随机游走。由于网络社团之间通常只有稀疏连接,网络上的随机游走将倾向于在社团内徘徊,因此可以使用随机游走的概率分布进行社团检测。
3、全局和局部
尽管这些社团检测方法工作良好,但所有这些方法都依赖于整个网络结构,这并不总是理想的。
有时,人们可能只想知道一个小区域内的社团,并希望避免分析整个事件的计算负担。更重要的是,在某些情况下,对完整网络的关注可能会导致有问题的结果。例如,模块度最大化返回的结果依赖于网络的总体大小,从而产生了所谓的分辨率限制,类似的限制也出现在其他方法中。这些问题可以通过引入控制分辨率规模的参数,或通过构建一个嵌套的划分层次结构,允许人们探索更小的社团规模来缓解。但另一种选择是采用局部方法进行社团检测,工作原理通常是通过在指定的种子节点周围构建单个社团,贪婪地添加节点,直到达到某个质量函数的局部最优值,这是一种计算效率很高的方法。
4、基准测试和性能测试
鉴于社团检测的大量相互竞争的方法,一个关键问题是如何在其中进行选择。
性能通常通过算法在恢复人工基准网络中已知社团方面的成功来衡量。为了解决这个问题,已经提出了更现实的SBM变体,例如度-校正SBM和LFR模型,后者近年来成为标准基准。算法在恢复这些网络中的已知社团方面的成功通常是使用信息论度量来估计的,例如标准互信息。
上述所有方法在基准测试中通常都具有良好的性能,尽管当测试网络中的社团结构变弱时会出现有趣的转折。然而,令人惊讶的是,社团检测实际上在达到这一点之前就失败了:在参数空间中存在一个大小不为零的区域,其中社团存在于网络中,但算法无法找到它们。已经正式证明存在一个尖锐的相变点,即可检测性阈值,低于该阈值,所有算法都必定无法找到隐藏的结构。这一结果不仅对社团检测,而且对更普遍的网络科学也具有指导意义。它告诉我们,有一些关于网络的问题有明确的答案,但却不可能找到这些答案。
量化社团检测算法性能的另一种方法是衡量它们在真实网络中恢复已知真实社团的能力。这样做的优点是可以在真实环境中测试性能,但缺点是很少确切地知道真实社团,因此正确答案存在一些模糊性。
在许多情况下,人们使用某种节点属性或元数据作为真实社团的代理,但不能保证这些元数据与社团完全对应,尽管有经验证据表明两者往往是相关的。或者,人们可以利用这种相关性,创建通过结合元数据知识和网络结构来推断社团的算法,而这样的算法,至少在一些研究中,似乎优于那些仅基于结构的算法。
5、社团重叠结构、层次结构、嵌入结构
到目前为止,我们关注的是将一个网络划分为离散的、不重叠的社团的经典问题,但也有一系列对其他类型结构的变体和扩展。
在社交网络和其他一些网络中,相同节点属于多个社团的重叠或混合成员社团很常见。术语“核心-外围结构”描述的网络分为高密度组和低密度组,具有密集的核心和较稀疏的外围,或具有不同密度的较大嵌套组。所有这些结构类型都可以使用模块度变体或统计模型来检测。
稍远一点的领域是具有潜在空间结构或分层的网络。这些网络中具有(或可以指定)与边的位置相关的数值。分层可以被认为是一种具有连续的、标量值的社团标签的社区结构,而不是离散的分类标签。每个节点上也可以有多个数值,并将其视为空间中定位节点的坐标,边往往位于附近节点之间,这种方法称为网络嵌入。存在一系列算法,用于在低维空间中查找网络嵌入,即使节点值事先未知,也可以有效地推断节点值。
网络嵌入算法包括经典方法,如弹簧嵌入算法和拉普拉斯谱嵌入,这最初是考虑网络可视化开发的,统计方法更类似于社团检测的连续版本。在实践中,表示学习方法与本评论中描述的方法有很大不同,通常采用深度学习或神经网络方法。然而,如果将得到的分数视为几何空间中的坐标,则表示学习可以给出与嵌入方法类似的结果。除了对自身感兴趣之外,嵌入还提供了另一种检测标准离散社团的途径:可以将社团定义为嵌入空间中紧密相连的节点组,并使用经典数据聚类方法检测此类群体。
三、展望
网络中的社团检测是一个正在进行的积极研究的领域。新算法的开发继续受到极大的关注,特别关注于提高准确性,提供正式的性能保证,并开发计算高效的方法,应用于非常大的数据集。在数学和理论计算机科学中,已经并将有广泛的限制算法性能和形式检测边界的工作。
另一个感兴趣的领域是为网络结构开发新的统计模型,既用于生成基准网络,也用于社团推理算法和其他更一般的结构形式的推理算法。我们设想在措施方面取得进一步的进展,特别是基于信息理论原则,以描述社团,比较网络的替代划分,并将划分聚为有代表性的群体。表示学习的进步将使我们能够利用多种数据类型进行社团检测,而不仅仅是网络结构,为解决问题提供新的强大方法。
最后,社团检测方法的应用令人眼花缭乱,揭示了物理学、生物学、工程学、计算机科学、社会科学等领域的网络结构。
参考文献
-
Newman, M. E. J. Networks (Oxford Univ. Press, 2018).
-
Fortunato, S. Phys. Rep. 486, 75–174 (2010).
-
Wasserman, S. & Faust, K. Social Network Analysis: Methods and Applications (Cambridge Univ. Press, 1994).
-
Girvan, M. & Newman, M. E. J. Proc. Natl Acad. Sci. USA 99, 7821–7826 (2002).
-
Newman, M. E. J. & Girvan, M. Phys. Rev. E 69, 026113 (2004).
-
Newman, M. E. J. Phys. Rev. E 69, 066133 (2004).
-
Guimera, R., Sales-Pardo, M. & Amaral, L. A. N. Phys. Rev. E 70,
-
025101(R) (2004). Blondel, V. D., Guillaume, J.-L., Lambiotte, R. & Lefebvre, E. J. Stat. Mech. 2008, P10008 (2008).
-
Holland, P. W., Laskey, K. B. & Leinhardt, S. Social Networks 5, 109–137 (1983).
-
Peixoto, T. P. Phys. Rev. Lett. 110, 148701 (2013).
-
Rosvall, M. & Bergstrom, C. T. Proc. Natl Acad. Sci. USA 105, 1118–1123 (2008).
-
Fortunato, S. & Barthelemy, M. Proc. Natl Acad. Sci. USA 104, 36–41 (2007).
-
Reichardt, J. & Bornholdt, S. Phys. Rev. E 74, 016110 (2006).
-
Peixoto, T. P. Phys. Rev. X 4, 011047 (2014).
-
Andersen, R., Chung, F. & Lang, K. in Symposium on Foundations of Computer Science (FOCS’06) 2006 47th Annual IEEE 475–486 (IEEE, 2006).
-
Lancichinetti, A., Radicchi, F., Ramasco, J. J. & Fortunato, S. PLoS ONE 6, e18961 (2011).
-
Danon, L., Diaz-Guilera, A., Duch, J. & Arenas, A. J. Stat. Mech. 2005, P09008 (2005).
-
Albert, R. & Barabási, A.-L. Rev. Mod. Phys. 74, 47–97 (2002).
-
Karrer, B. & Newman, M. E. J. Phys. Rev. E 83, 016107 (2011).
-
Lancichinetti, A., Fortunato, S. & Radicchi, F. Phys. Rev. E 78, 046110 (2008).
-
Fred, A. L. N. & Jain, A. K. in Proc. 2003 IEEE Computer Soc. Conf. Computer Vision Pattern Recognition 128–136 (IEEE, 2003).
-
Lancichinetti, A. & Fortunato, S. Phys. Rev. E 80, 056117 (2009).
-
Decelle, A., Krzakala, F., Moore, C. & Zdeborová, L. Phys. Rev. E 84, 066106 (2011).
-
Massoulié, L. in Proc. 46th Annual ACM Symposium Teory of Computing 694–703 (ACM, 2014).
-
Mossel, E., Neeman, J. & Sly, A. Probab. Teory Relat. Fields 162, 431–461 (2015).
-
Hric, D., Darst, R. K. & Fortunato, S. Phys. Rev. E 90, 062805 (2014).
-
Newman, M. E. J. & Clauset, A. Nat. Commun. 7, 11863 (2016).
-
Peel, L., Larremore, D. B. & Clauset, A. Sci. Adv. 3, e1602548 (2017).
-
Clauset, A., Moore, C. & Newman, M. E. J. Nature 453, 98–101 (2008).
-
Palla, G., Derenyi, I., Farkas, I. & Vicsek, T. Nature 435, 814–818 (2005).
-
Airoldi, E. M., Blei, D. M., Fienberg, S. E. & Xing, E. P. J. Mach. Learn. Res. 9, 1981–2014 (2008).
-
Csermely, P., London, A., Wu, L.-Y. & Uzzi, B. J. Complex Netw. 1, 93–123 (2013).
-
Rombach, M. P., Porter, M. A., Fowler, J. H. & Mucha, P. J. SIAM J. Appl. Math. 74, 167–190 (2014).
-
Goyal, P. & Ferrara, E. Knowledge-Based Syst. 151, 78–94 (2018).
-
Hamilton, W., Ying, Z. & Leskovec, J. in Proc. 31st International Conference on Neural Information Processing Systems (NIPS’17) 1025–1035 (MIT Press, 2017).
-
Hof, P. D., Rafery, A. E. & Handcock, M. S. J. Am. Stat. Assoc. 97, 1090–1098 (2002).
-
Newman, M. E. J. & Peixoto, T. P. Phys. Rev. Lett. 115, 088701 (2015).