首页 > 其他分享 >文献笔记:LINE: Large-scale Information Network Embedding

文献笔记:LINE: Large-scale Information Network Embedding

时间:2024-02-29 11:48:31浏览次数:33  
标签:Information scale Network 信息网络 网络 二阶 嵌入 一阶 接近

https://arxiv.org/pdf/1503.03578v1.pdf
本文研究了将非常大的信息网络嵌入到低维向量空间的问题,这在可视化、节点分类和链路预测等许多任务中都很有用。大多数现有的图形嵌入方法无法扩展到通常包含数百万个节点的现实世界信息网络。在本文中,我们提出了一种名为“LINE”的新型网络嵌入方法,适用于任意类型的信息网络:无向、定向和/或加权。该方法优化了精心设计的目标功能,保留了本地和全球网络结构。提出了一种边缘采样算法,解决了经典随机梯度下降的局限性,并提高了推理的有效性和效率。实证实验证明了LINE在各种现实世界信息网络上的有效性,包括语言网络、社交网络和引用网络。该算法非常高效,能够在几个小时内在典型的单台机器上学习具有数百万个顶点和数十亿个边缘的网络的嵌入。LINE的源代码可在线获取。
结构:第1节介绍。第2节总结了相关工作。第3节正式定义了大规模信息网络嵌入的问题。第4节详细介绍了LINE模型。第5节介绍了实验结果。在第6节总结。
论文研读问题
1.文章在解决什么问题?
将非常大的信息网络嵌入到低维向量空间,为下游任务做准备。提出能实现以下要求的信息网络嵌入:
● 首先,它必须能够保持顶点之间的一阶接近度和二阶接近度;
● 其次,它必须为非常大的网络扩展,例如数百万个顶点和边缘;
● 第三,它可以处理具有任意类型边缘的网络:有向、无向和/或加权。
2.用了什么方法?

  1. 提出了Line模型,专门为网络设计的目标,实现保留一节接近度和二阶接近度的网络嵌入
  2. 提出边缘采样算法,使用与权重成正比的概率进行采样,解决随机梯度下降存在的梯度爆炸问题。
  3. 更类似于广度优先搜索来保留二阶接近度
  4. 在现实世界的信息网络上进行了广泛的实验,用实验结果证明了不同网络下的LINE模型的有效性和效率。

Line 模型提出一阶接近度和二阶接近度的定义,并通过组合实现一阶和二阶,提出Line(1st),Line(2sd),Line(1st+2nd),还有使用梯度随即下降版本的sgd,并进行实验探究在不同信息网络中的表现。
一阶接近度的求解方法:

二阶接近度求解方法:

3.得出了什么结论,有什么效果?
● line模型可以适用任何类型网络,包括语言网络、社交网络和引用网络,具有通用性,可以保留了本地和全局网络结构。
● 提出了一种边缘采样算法,解决了经典随机梯度下降的局限性,解决随机梯度下降存在的梯度爆炸问题。
● 算法非常高效,能够在几个小时内在典型的单台机器上学习具有数百万个顶点和数十亿个边缘的网络的嵌入。
4.没完成的/新问题有哪些?

  1. low degree vector。一个实际问题是如何用小度来嵌入顶点。由于这种节点的邻居数量非常少,因此很难准确推断其表示,特别是基于二阶接近的方法在很大程度上依赖于“上下文”的数量。 解决方法,添加高阶邻居,邻居的邻居,Line加入了二阶邻居。
  2. 如何找到新出现的顶点的表示。如果观察到新顶点和现有顶点之间没有连接,我们必须求助于其他信息,例如顶点的文本信息,并将其作为我们未来的工作。辅助信息,比如side information.
    5.为什么这篇文章很重要?
    优点:适用于任意类型的信息网络,提出将一阶和二阶接近度结合出来,保留了本地和全球网络结构,提出了一种边缘采样算法,算法非常高效,性能好,能快速处理大量节点,可以处理稀疏和稠密网络。
    特点:说明了一阶接近度和二阶接近度是互补的。
  3. 一般图嵌入和降维方法重点特征向量的矩阵分解,处理大规模网络效率低下。
  4. 图因子分解方法的目标不为了网络设计,不一定能保留全局网络结构,重点关注一阶接近度,只适合无向图。
  5. Deep walk加入截断随机游走,未设计目标来阐明保留哪些网络属性,重点关注二阶接近度,类似深搜,只适合未加权的。
  6. 而Line专为网络设计,将一阶和二阶接近度结合出来,保留了本地和全球网络结构,操作更类似广搜,用广搜来求二阶接近度更合理。

6.数据
(1)语言网络。用维基百科页面构建了一个单词共同出现网络。每个5个单词的滑动窗口中的单词都是相互并发的。
(2)社交网络。Flickr和Youtube2。Flickr网络的密度比Youtube网络。
(3)引文网络。author引文网络和纸质引文网络。用DBLP数据集构建作者之间和论文之间的引用网络。作者引用网络记录了一位作者撰写和另一位作者引用的论文数量。这些网络的详细统计数据汇总到表1中。它们代表各种信息网络:定向和非定向、二进制和加权。每个网络至少包含50万个节点和数百万个边缘。
7.能尝试新思路
异质信息网络嵌入。
动态信息网络嵌入更新。
多模态信息网络嵌入。
相关背景知识
1.一阶和二阶接近度定义:
一阶邻近性网络中的一阶邻近性是两个顶点之间的局部成对邻近性。对于每一对由边(u, v)连接的顶点,该边的权值wuv表示u和v之间的一级接近度。如果在u和v之间没有观察到边,则它们的一阶接近度为O。

二阶邻近性:网络中一对顶点(u,v)之间的二阶邻近性是它们的邻域网络结构之间的相似性。数学上,令pu = (wu.1,…, Wu.|v|)表示u与所有其他顶点的一阶接近度,则u与v的二阶接近度由pu与py的相似度决定。如果没有一个顶点连接到u和v,则u和v之间的二阶接近度为0。
2.binary and weighted network
在网络的上下文中,"二值网络"和"加权网络"分别指的是不同的表示节点之间关系的方式。让我们详细了解每个概念:

  1. 二值网络
    • 在二值网络中,节点之间的连接以二进制方式表示,通常为存在(1)或不存在(0)。这意味着网络只捕捉连接是否存在,而不考虑连接的强度或强度。
    • 二值网络通常用于关系是纯粹二进制的情况,例如在社交网络中,友谊的存在或不存在。
  2. 加权网络
    • 在加权网络中,每个节点之间的连接被赋予一个数字权重或值,以表示关系的强度或强度。权重通常传达了有关节点之间关联程度的额外信息。
    • 当连接的强度很重要时,使用加权网络是有益的。例如,在交通网络中,权重可以表示位置之间的行车距离或行车时间。
      总的来说,关键的区别在于连接是如何表示的。二值网络关注连接是否存在,而加权网络则考虑连接的强度或强度。选择二值或加权表示取决于建模关系的性质以及特定网络的特征。

标签:Information,scale,Network,信息网络,网络,二阶,嵌入,一阶,接近
From: https://www.cnblogs.com/harzerblog/p/18043124

相关文章

  • Adaptive Universal Generalized PageRank Graph Neural Network
    目录概符号说明GPR-GNN代码ChienE.,PengJ.,LiP.andMilenkovicO.Adaptiveuniversalgeneralizedpagerankgraphneuralnetwork.ICLR,2021.概GPR-GNN自适应地学习GNNlayersweights.符号说明\(G=(V,E)\),graphs;\(\mathbf{X}\in\mathbb{R}^{n\time......
  • Revisiting Heterophily For Graph Neural Networks
    目录概符号说明HomophilymetricsPost-aggregationnodesimilaritymatrix代码LuanS.,HuaC.,LuQ.,ZhuJ.,ZhaoM.,ZhangS.,ChangX.andPrecupD.Revisitingheterophilyforgraphneuralnetworks.NIPS,2022.概介绍了一种新的graphhomophilymetrics.符......
  • Large Scale Product Graph Construction for Recommendation in E-commerce论文阅读
    Abstract​ 大规模的推荐系统通常严重依赖于预先构建的产品索引来加速推荐服务,从而使等待时间较长。一个重要的索引结构是产品-产品索引,在这里可以检索给定种子产品的排名产品列表。该指数可以看作是一个加权的产品-产品图。​ 在本文中,我们提出了一种能够有效地构建这类索引产......
  • STEP: 用于多变量时间序列预测的预训练增强时空图神经网络《Pre-training Enhanced Sp
    2023年12月27日,看一篇老师给的论文。论文:Pre-trainingEnhancedSpatial-temporalGraphNeuralNetworkforMultivariateTimeSeriesForecasting或者是:Pre-trainingEnhancedSpatial-temporalGraphNeuralNetworkforMultivariateTimeSeriesForecastingGitHub:https:......
  • MMFN论文阅读笔记(Multi-modal Fake News Detection on Social Media via Multi-graine
    论文标题:Multi-modalFakeNewsDetectiononSocialMediaviaMulti-grainedInformationFusion论文作者:YangmingZhou,YuzhouYang,QichaoYing,ZhenxingQian,XinpengZhang论文来源:ICMR2023,paper论文代码:暂无介绍目前的多模态方法主要集中在文本和视觉特征的融......
  • MCN公司,即Multi-Channel Network
    MCN公司MCN公司,即Multi-ChannelNetwork,是一种新型的数字内容营销和传播机构。它们通常专注于网络红人(KOL)的孵化、内容创作、分发和商业化。MCN公司通过签约和培养网络红人,利用这些红人的影响力在社交媒体、视频平台等渠道上推广品牌和产品。在中国,知名的MCN公......
  • Graph-Skeleton: ~1% Nodes are Sufficient to Represent Billion-Scale Graph
    目录概符号说明EmpiricalAnalysisSkeletonGraphNodeFetchingGraphCondensation代码CaoL.,DengH.,WangC.,ChenL.andYangY.Graph-skeleton:~1%nodesaresufficienttorepresentbillion-scalegraph.WWW,2024.概本文提出了一种图压缩的方法,这些方法基......
  • PNG格式PNG(Portable Network Graphics)位图图形文件格式 无损压缩的图片格式,支持索引
    PNG(PortableNetworkGraphics)是一种位图图形文件格式,它是一种无损压缩的图片格式,支持索引、灰度、RGB和RGBA等多种颜色模式。PNG格式支持多种颜色模式,包括以下几种:索引色模式(IndexedColor):索引色模式使用一个颜色索引表来存储图像中使用的颜色。每个像素使用索引值来指定......
  • EvolveGCN Evolving Graph Convolutional Networks for Dynamic Graphs
    目录概符号说明EvolveGCN代码ParejaA.,DomeniconiG.,ChenJ.,MaT.,SuzumuraT.,KanezashiH.,KalerT.,SchardlT.B.andLeisersonC.E.EvolveGCN:Evolvinggraphconvolutionalnetworksfordynamicgraphs.AAAI,2019.概GCN用在动态图上的早期探索.符号......
  • Linear-Time Graph Neural Networks for Scalable Recommendations
    目录概符号说明MotivationLTGNN代码ZhangJ.,XueR.,FanW.,XuX.,LiQ.,PeiJ.andLiuX.Linear-timegraphneuralnetworksforscalablerecommendations.WWW,2024.概在大图上的一种高效的训练方式.符号说明\(\mathcal{V}\),nodeset;\(\mathcal{E}\),edg......