论文阅读-无需验证的高效局部最密子图发现方法

摘要

在大规模图中寻找密集子图是一项基础的图挖掘任务，具有许多应用。局部最密子图（LDS）的概念最近被提出，用于识别复盖大图不同区域的多个密集子图。LDS 是其局部区域中密度最高的子图。当前最先进的算法通过迭代计算最密子图并将其从图中删除，然后通过代价高昂的最大流计算来验证每个候选项。尽管有先进的剪枝技术，但验证步骤仍然耗时，特别是对于较大的 k 值。在本文中，我们设计了无验证方法来提高寻找前 k 个 LDS 的效率。我们提出了分治算法 LDS-DC 和优化算法 LDS-Opt，它们在不构建整个层次结构的情况下高效地识别前 k 个 LDS。实证研究表明，LDS-Opt 在所有 k 值上都优于现有方法，改进幅度达到几个数量级。

引言

在大规模图中寻找密集子图是一项基础的图挖掘任务。由于现实世界的图通常是全局稀疏的，密集子图通常表示图中的语义重要区域。密集子图挖掘已被应用于许多领域，如社交网络中的社区检测、社交媒体中的故事识别、网页图中的垃圾链接检测以及生物图中的调控基序发现。

局部最密子图（LDS）的概念

在实际应用中，仅仅找到一个最密子图往往不足以满足需求，因为这个子图只复盖了大图的一个区域。为了解决这个问题，Qin 等人提出了局部最密子图（LDS）的概念，其目的是在大图中找到多个分佈于不同区域的密集子图。

一个图是 λ-紧凑的，如果它满足以下两个条件：

它是连通的。
从中移除任何顶点子集 S 及其相关的边后，至少会移除 λ×∣S∣ 条边。

一个子图是图 G 的最大 λ-紧凑子图，如果它是 λ-紧凑的最大子图。局部最密子图（LDS）是当 λ 等于子图密度时的最大 λ-紧凑子图。

这样，LDS能够有效地识别大图中不同区域的多个密集子图，从而更全面地反映图的结构特徵。

现有方法的效率问题

计算密度最高的前 k 个局部最密子图（LDS）的最先进算法是LDS方法，其时间复杂度为

O ( m 2 n log ⁡ 2 n ) O(m^2 n \log^2 n) O(m2nlog2n)

基本思想是迭代地计算最密子图，并将其从图中删除；随着图的不断缩小，计算出的最密子图不一定是输入图 G 中最密的。所有计算出的最密子图的连通组件是LDS的候选项。对于每个候选子图 g，需要验证它是否确实是LDS。

在这个过程中，定义了一个函数
F ( λ ) F(λ) F(λ)

用于最大化
∣ E ( S ) ∣ − λ ∣ S ∣ ∣E(S)∣−λ∣S∣ ∣E(S)∣−λ∣S∣
其中 E(S) 表示图 G中两端点都在顶点集 S 中的边集。通过计算这个函数，可以找到最密子图的候选项。

可以通过网络流算法来计算。

然而，这种方法存在效率问题。随着图规模的增加和迭代次数的增加，计算时间会显着增长，因此需要更高效的算法来处理大规模图数据。

提出的无验证方法

本文提出了无需验证的方法来高效计算前 k 个 LDS。我们基于以下观察：所有可能 λ 值的最大 λ-紧凑子图集合形成一个层次结构，LDS 只是该层次结构中的叶子。因此，我们提出了一种分治算法 LDS-DC 以及一种优化算法 LDS-Opt，以便在不构建整个层次结构的情况下高效地识别前 k 个 LDS。实证研究表明，LDS-DC 在较大 k 值时（例如 k ≥ 20）运行速度比 LDS 快，但在较小 k 值时可能被 LDS 超过。为了解决 LDS-DC 在小 k 值时的低效问题，我们进一步提出了优化方法 LDS-Opt，该方法在所有 k 值下都优于 LDS-DC。

具体算法

LDS-DC 算法

LDS-DC 算法是一种分治算法，旨在通过分而治之的策略高效地计算最大 λ-紧凑子图。其核心思想是递归地分割图并计算局部密集子图，然后合并结果。

初始化：将整个图作为输入，设定初始参数。
分割：根据密度值 λ 将图分割为若干子图。
递归计算：对每个子图递归调用 LDS-DC 算法，直至达到最小子图。
合并结果：将递归计算的结果合并，形成最终的局部最密子图。

LDS-Opt 算法

LDS-Opt 算法在 LDS-DC 算法的基础上进行优化，旨在提高小 k 值时的计算效率。其主要优化策略包括：

剪枝技术：在递归计算过程中，移除不可能属于 LDS 的顶点，减少计算量。
局部优化：在每个子图中，优先计算密度最高的子图，以减少递归深度。
动态调整参数：根据当前图的密度和结构，动态调整算法参数，以达到最优性能。

实验结果

我们在多个真实图上进行了广泛的实证研究，结果表明，LDS-Opt 在所有 k 值上都优于现有方法，尤其是在大 k 值情况下，改进幅度达到几个数量级。具体实验结果如下：

对比方法：我们将 LDS-Opt 与现有的 LDS 算法进行了对比。
实验图集：选择了多个具有代表性的真实图进行实验，包括社交网络图、网页图和生物图。
性能指标：主要比较了计算时间和内存使用量。
结果分析：LDS-Opt 在所有实验图上均表现出更高的效率，特别是在大 k 值情况下，计算时间显着减少。

上图展示了在侦测所有LDSEs (即k = ∞) 时，在十个不同数据集，三种不同方法的效率，分别是LDS、LDS-DC 和LDS-Opt

在这里插入图片描述

这张图表展示了在十个不同数据集中，LDS、LDS-DC和LDS-Opt方法在侦测小k值 (k ≤ 20) 时的效率表现。
在这里插入图片描述

这张图表展示了在六个不同数据集中，LDS、LDS-DC和LDS-Opt方法在侦测所有LDSEs (k = ∞) 且随图规模变化时的效率表现。

结论

本文提出的无验证方法，通过定义新的问题、设计高效的算法以及引入优化技术，解决了在大规模图中高效发现局部最密子图（LDS）的问题。我们的研究在图数据挖掘中具有重要意义，并为相关研究提供了新的思路和方法。

具体来说，我们提出的LDS-DC和LDS-Opt算法，显着提高了发现局部最密子图的效率，并且在实验中表现出色，优于现有的LDS方法，特别是在处理较大的k值时。我们的方法避免了传统方法中昂贵的验证步骤，从而大幅减少了计算时间。

未来的研究方向可以包括以下几个方面：

算法优化：进一步优化算法，以应对更大规模的图数据集，并提高算法的可扩展性。
应用扩展：探索我们的方法在不同领域中的应用，例如社交网络分析、生物信息学和网络安全等。
理论分析：深入分析算法的理论性能，探索其在不同图结构下的行为。

总结来说，本文的研究不仅提供了一种高效发现局部最密子图的方法，还为未来的研究开辟了新的方向，具有广泛的应用前景和深远的影响。

论文地址:https://ieeexplore.ieee.org/document/10184510

标签：Opt,最密子,无需,验证,子图,DC,LDS,算法
From： https://blog.csdn.net/m0_62361730/article/details/140725823