首页 > 数据库 >读图数据库实战笔记10图分析

读图数据库实战笔记10图分析

时间:2024-12-22 08:57:43浏览次数:6  
标签:1.4 1.5 1.2 10 数据库 1.3 读图 算法 顶点

1. 图分析

1.1. 图分析和机器学习(ML)是进一步探索图时要探索的两个最常见领域

1.2. 寻路

  • 1.2.1. 每一个特定的寻路算法的工作原理都略有不同,并且各有优缺点

  • 1.2.2. 测向

    • 1.2.2.1. 地理制图工具使用寻路算法的一些变体来提供方向
  • 1.2.3. 优化问题

    • 1.2.3.1. 寻路算法可以优化处理大量相互依赖的实体的各种问题,从管理供应链到优化金融交易,再到确定计算机网络中的瓶颈和故障点
  • 1.2.4. 欺诈检测

    • 1.2.4.1. 许多欺诈算法使用循环检测,发现与自身相连的实体组,以寻找紧密相连的子图,作为潜在欺诈账户的衡量标准
  • 1.2.5. 最常见的寻路算法是最短路径算法,它计算两个顶点之间的最短路径

    • 1.2.5.1. 无加权方法将所有路径视为相等的,根据所遍历的边数计算最短路径

      1.2.5.1.1. 社交网络就是说明无加权最短路径算法有用的一个好例子

    • 1.2.5.2. 加权方法为所有路径分配相对权重,然后在计算中使用这些权重

      1.2.5.2.1. 当遍历边的相对成本不相等时,加权最短路径算法是一个很好的选择

      1.2.5.2.2. 供应链优化

      1.2.5.2.2.1. 移动货物的相对成本(距离/时间)是不相等的

      1.2.5.2.3. 网络路由问题

      1.2.5.2.3.1. 硬件或其他方面的原因(如地理邻近)​,连接之间传输网络数据包所需的时间也不同

  • 1.2.6. 最常见的是Djkstra算法和A*搜索算法,它们都可用于加权图和无加权图

1.3. 中心性

  • 1.3.1. 重要性一词来描述一个特定顶点在图整体结构中起的作用

  • 1.3.2. 顶点重要性的具体含义根据特定算法所计算的内容而异

  • 1.3.3. 每个方法都是定义重要性的完美有效方法,但计算每个方法都可能会产生不同的结果

  • 1.3.4. 度数

    • 1.3.4.1. 度数(degree)中心性是最容易理解的

    • 1.3.4.2. 度数是指与一个顶点相关联的边的数量,因此度数中心性是基于边数对顶点进行排序的

    • 1.3.4.3. 度数中心性可以通过分别测量内度和外度来进一步细分

    • 1.3.4.4. 度数中心性通常用于确定图连接程度的基线,尤其是在计算平均值、最小值和最大值时

  • 1.3.5. 间隙

    • 1.3.5.1. 间隙(betweenness)中心性是指一个顶点在图中所有节点对之间的最短路径中被使用的次数

    • 1.3.5.2. 间隙中心性在寻找连接不同顶点组的临界点方面很有效

    • 1.3.5.3. 使用该算法时,返回的数越大,表示该顶点越重要。如果在

    • 1.3.5.4. 如果在我们的社交网络中运行间隙中心性,就能发现谁与不同的社会群体有最多的联系

  • 1.3.6. 亲密度

    • 1.3.6.1. 亲密度(closeness)中心性是对从一个顶点到所有其他顶点的最短路径平均长度的度量,表示相对于所有其他顶点,哪些顶点位于最中心的位置

    • 1.3.6.2. 使用亲密度数中心性时,返回值越小,说明该顶点越重要

    • 1.3.6.3. 在我们的社交网络中运行亲密度中心性,就能识别出哪些人是社交网络的“核心”​

  • 1.3.7. 特征向量

    • 1.3.7.1. 特征向量(eigenvector)中心性是一种复杂的中心性测量,使用相邻顶点的相对重要性作为输入来计算给定顶点的重要性

    • 1.3.7.2. 仅凭一个顶点与许多其他顶点相连,并不一定能说明它很重要

    • 1.3.7.3. 应该使用相邻顶点的重要性来计算该顶点的总体重要性

    • 1.3.7.4. 在我们的社交网络中运行特征向量中心性,可以找到社交网络中最有影响力的人,他们不仅拥有最多的联系,而且这些联系很紧密

  • 1.3.8. PageRank

    • 1.3.8.1. PageRank是因为被Google的拉里·佩奇和谢尔盖·布林用于对搜索结果进行加权而出名的一种算法

    • 1.3.8.2. 使用相邻顶点的相对重要性来帮助确定顶点的总体重要性

    • 1.3.8.3. 包括一个衰减值(通常设置为0.85)​,以指示随着网络的遍历,影响会逐步衰减

    • 1.3.8.4. 顶点的PageRank返回值越高,该顶点就越重要

    • 1.3.8.5. 与特征向量中心性一样,如果在我们的社交网络中运行PageRank,结果将代表在社交网络中最有影响力的人

1.4. 群体检测

  • 1.4.1. 群体检测(community detection)算法来发现相互紧密连接但与图中其他顶点松散连接的顶点组或群体

  • 1.4.2. 群体检测算法不仅仅局限于社交网络,还被用于许多行业和用例

  • 1.4.3. 与中心性算法一样,有大量潜在的群体检测算法,每个算法都以稍微不同的方式找到群体

  • 1.4.4. 三角形计数

    • 1.4.4.1. 计算图中三角形的数量称为三角形计数

    • 1.4.4.2. 三角形计数在捕捉图中顶点网络的内聚性或紧密性方面很有用

    • 1.4.4.3. 含紧密关联网络或社区的图具有较高的三角形计数

    • 1.4.4.4. 包含松散连接网络的图具有较低的三角形计数

  • 1.4.5. 连通分量

    • 1.4.5.1. 在图论中,将每个顶点都有一条到所有其他顶点路径的子图称为分量

    • 1.4.5.2. 连通分量在全局图中发现相关数据的集群,这有助于在社交图中查找家庭、查找有联系的组织或在电商网站中查找可能重复的账户

    • 1.4.5.3. 弱连通分量算法

      1.4.5.3.1. 算法没有考虑顶点之间边的方向

    • 1.4.5.4. 强连通分量算法

      1.4.5.4.1. 在本质上和弱连通分量是一样的,只是考虑了边的方向

      1.4.5.4.2. 在强连通分量中,子图中任意两个顶点之间存在一对边,每个方向上都有一条边

      1.4.5.4.3. 强连通分量算法来检测图中有方向性的高度连接群体

      1.4.5.4.4. 经常用于在金融风控领域查找欺诈活动的中心

      1.4.5.4.5. 经常用于在产品推荐中寻找相似的用户群体

1.5. 图和机器学习

  • 1.5.1. 有讽刺意味的是,尽管许多ML技术严重依赖图来完成其学习,但这些技术既不允许将图作为输入,也不允许将图作为输出

  • 1.5.2. 大多数标准的ML算法还是将固定向量或数据矩阵作为输入

    • 1.5.2.1. 向量操作比在图上的类似操作更简单、更快

    • 1.5.2.2. 可用的许多算法和工具都针对向量操作进行了优化

    • 1.5.2.3. 很少有人将图作为输入数据来构建

  • 1.5.3. 特征提取

    • 1.5.3.1. 在ML中使用图的最简单方法是提取图的特征,以深入了解图中的数据

    • 1.5.3.2. 最短路径

      1.5.3.2.1. 取一个人和已知的不良行为者之间的最短路径,作为欺诈ML模型的预测度量

    • 1.5.3.3.  三角形计数

      1.5.3.3.1. 在社交网络中使用三角形计数来确定特定用户的社交性或反社交性

    • 1.5.3.4.  度数

      1.5.3.4.1. 使用顶点的连接度来确定传感器在传感器网络中的重要性

  • 1.5.4. 图嵌入

    • 1.5.4.1. 图嵌入是一种将图的稀疏多维结构表示为向量或矩阵的机制

      1.5.4.1.1. 将稀疏数据转化为更紧凑的向量表示

    • 1.5.4.2. 大部分研究是由自然语言处理(NLP)方面的工作推动的,但它现在被更普遍地应用于图中,为预测新的友谊和发现欺诈活动等任务提供输入

    • 1.5.4.3. 顶点嵌入

      1.5.4.3.1. 将每个顶点表示为一个向量/矩阵,用于比较顶点级别的项

    • 1.5.4.4. 图嵌入

      1.5.4.4.1. 将整张图/子图表示为一个向量/矩阵,用于对整张图进行相互比较

    • 1.5.4.5. 挑战是确保我们包含的任何特征都能充分表示拓扑、连通性和其他图属性,同时最大限度地减小向量的大小

    • 1.5.4.6. 更大的嵌入需要更多的处理时间和存储空间,但也保持了原始图数据的高保真度

  • 1.5.5. 特征工程本身就是一门完整的学科

2. 其他资源

2.1. 图论

  • 2.1.1. Sarada Herke的“Graph Theory Channel”​

  • 2.1.2. Richard J. Trudeau的Introduction to Graph Theory

  • 2.1.3. Douglas B. West的《图论导引(第2版)​》​

2.2. 图数据库

  • 2.2.1. Ian Robinson等人的《图数据库》

  • 2.2.2. Denise Gosnell和Matthias Broecheler的The Practitioner's Guide to Graph Data

  • 2.2.3. Kelvin R. Lawrence的PRACTICAL GREMLIN: An Apache TinkerPop Tutorial

  • 2.2.4. Corey L. Lanum的Visualizing Graph Data

2.3. 图数据集

  • 2.3.1. Stanford Network Analysis Project(SNAP)

  • 2.3.2. Kaggle

  • 2.3.3. Google Datasets

  • 2.3.4. LDBC(Linked Data Bench Council)的The Social Network Benchmark(SNB)

2.4. 图算法

  • 2.4.1. Tushar Roy的“Coding Made Simple, Graph Algorithms Playlist”​

  • 2.4.2. Algorithms Course的“Graph Theory Tutorial from a Google Engineer”​

  • 2.4.3. Alessandro Negro的Graph-Powered Machine Learning

  • 2.4.4. Mark Needham和Amy E. Hodler的《数据分析之图算法:基于Spark和Neo4j》

标签:1.4,1.5,1.2,10,数据库,1.3,读图,算法,顶点
From: https://www.cnblogs.com/lying7/p/18621385

相关文章

  • 【安全评审】“2024网络安全100强-行业应用”评分全流程细则
    一指标理解1.1“行业应用”的核心优势是什么?1.2评估维度有哪些?二、评审专家筛选2.1对专家所在单位有什么要求?2.2对专家所在行业有什么要求?2.3对专家个人能力有什么要求?2.4对专家组有什么要求?2.5对专家个人价值观有什么要求?三、评分规则制......
  • 数据库系统------查询处理
    什么是查询处理下图是查询处理的基本步骤首先我们输入一串sql语句,这就是query查询,然后会交给parser解析器进行内部的处理,比如将sql语句转换成关系代数等,同一个操作可以有不同的关系代数表达式,我们最好是选择执行代价最小的那一种,这就是optimizer优化器的作用了,它......
  • 基于springboot 医院问诊管理系统(源码+LW+部署讲解+数据库)
    !!!!!!!!!很多人不知道选题怎么选不清楚自己适合做哪块内容都可以免费来问我避免后期給自己答辩找麻烦增加难度(部分学校只有一次答辩机会没弄好就延迟毕业了)源码获取:https://pan.baidu.com/s/1aRpOv3f2sdtVYOogQjb8jg?pwd=jf1d提取码:jf1d !!!!!!!!!项目介绍随着医疗信息化的不断推......
  • 基于springboot 实践教学管理系统(源码+LW+部署讲解+数据库)
    !!!!!!!!!很多人不知道选题怎么选不清楚自己适合做哪块内容都可以免费来问我避免后期給自己答辩找麻烦增加难度(部分学校只有一次答辩机会没弄好就延迟毕业了)源码获取:https://pan.baidu.com/s/1aRpOv3f2sdtVYOogQjb8jg?pwd=jf1d提取码:jf1d !!!!!!!!!项目介绍随着教育信息化的不断推......
  • 【工具变量】上市公司企业供应链成本分担数据(2010-2023年)
    一、测算方式:参考C刊《经济管理》刘红霞老师(2024)的做法,从绿色投资企业与供应链其他成员企业关系层面出发,使用两个指标测度供应链成本分担:一是单向供应链成本分担总额(CS_get),是绿色投资企业从供应链其他成员企业获取的成本分担,强调了链上企业对绿色投资企业单向的成本分担水平,使......
  • javaFX.(蜜雪冰城点餐小程序)MySQL数据库
    学习Java只有3个月,不喜勿喷该小程序是用的MySQL数据库,编辑软件用的equals,为什么不用idea有提示因为主打一个纯手打要源码私信目录javafx.小程序(蜜雪冰城点餐系统)简介主体思路思路讲解用户登录用户注册忘记密码​编辑主页个人信息修改冬日温暖活动模糊查询,商品......
  • //需求//某系统的数字密码(大于0),比如1983,采用加密方式进行传输;//规则如下:先得到每位数
    //需求//某系统的数字密码(大于0),比如1983,采用加密方式进行传输;//规则如下:先得到每位数,然后每位数都加上5,再对10求余,最后将所有数字反转,得到一串新数;importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){//1.通过输入......
  • 【数据库开发】小红书MySQL数据一致性校验能力探索与实践
    本文主要介绍数据一致性校验如何结合小红书的业务进行实践并落地,以及数据一致性校验在小红书内部拿到的实际收益。一、背景1.1什么是数据一致性校验在数据迁移、数据同步以及多数据中心部署等场景中,数据的一致性要求极为严格。然而冗长的同步计算链路产生的误写或丢失、主从复......
  • 在鸿蒙环境中,关系型数据库的详细讲解(1)内含:数据库的创建,数据的插入同步(insert),异步(
    前言看这篇文章的应该有和我一样是大学生并且去了一个班并且在做一个结课项目吧,至于班的名字这里就不详细说了,那废话不多说直接进入正题1.为什么要用数据库1.1持久化数据存储使用数据库可以在应用断电,重启保持数据不丢失我在这里举个例子:你在王者*耀里面自定义了一个键......
  • 10.1(学号:3025)
    importnumpyasnpimportstatsmodels.apiassmimportpylabaspltdefcheck(d):x0=d[0];y0=d[1];d={'x':x0,'y':y0}re=sm.formula.ols('y~x',d).fit()#拟合线性回归模型print(re.summary())print(re.outlier_test())#输出已知数据的野......