Connecting the Hosts: Street-Level IP Geolocation with Graph Neural Networks
ABSTRACT
大概讲述了该论文的重要性,作者利用主机信息和邻居关系嵌入到图中来推断拓扑结构,进行定位。同样考虑了网络抖动和拥堵。最终在三个已有的数据集中优于最先进的技术。
INTRODUCTION
由于收集信息的可用性和可靠性,IP地理定位仍然是一个big Challenge。早起的工作聚焦于WHOIS和DNS上的记录信息,但这些公开的资源已经过期,只是大概的并且不可靠。还有一些是利用画圆定位原理(圆的半径为延迟如下图)不过受制于网络延迟和抖动。
现在同样也有很多的机器学习模型和神经网络模型,通过测量数据作为特征来预测区域或者经纬度。(如下图)
但是有以下三个痛点:
- 传统的基于测量的方法的实际部署受到困难的物理距离估计和未知空间拓扑关系的影响
- 忽略了与IP主机的地理位置密切相关的结构化信息。
- 没有考虑网络抖动和拥塞的影响
作者创新性地提出了利用图神经来解决上述的问题,结合IP主机和网络拓扑结构作为特征。但主要有三个挑战点:
- 一个图包含哪些IP主机
- 如何建立合适的图结构
- 由于网络测量总是有噪声和不确定性,如何稳健地汇总节点特征
为了解决上述的问题,作者的contribution:
- 结合了IP主机的特征和邻里关系的种类,使我们能够通过图结构来提取共同的知识和拓扑结构,而不是学习线性特征的相互作用或将每个IP主机 独立处理
- 提出一个不确定性感知的GNN来精确定位目标IP地址。它通过概率空间的连续和灵活推理(不懂了),关注复杂网络环境中普遍存在的由网络拥堵和抖动引起的不确定性和噪音。
- 极大地提高了ip定位的准确性
- 商业价值yyds
RELATED WORK
IP Geolocation
一个小图说明一下
Graph Neural Networks
等会再说
DATA AND PROBLEM DEFINITION
Data Collection
- knowledge of IP hosts: 通过公开的数据库如WHOIS
- the network measurements: 通过ping或者tracert获得,在不同区域的主机上
- e IP geolocations: 某个线上平台用户给的权限使用GPS获得;众包
最后再使用地理位置变化不大的IP地址为可用数据集(过滤指标在附录A)
Problem Definition
METHODOLOGY
Overview
一个图放个大概,下面分别来说说三个部分
IP Hosts Clustering with Topology
这里确定哪些landmarks属于同一个拓扑图。
目前主要研究成果利用的是landmark(可利用主机)与目标ip之间利用ping命令的探测,然后使用拓扑方法或者无监督的K近邻,但是这样没有考虑到网络的抖动和阻塞
作者则利用了windows下tracert命令,获得每个landmark和目标ip的最后一个跳转路由。由这个跳转路由作为图的标识点。
具体算法为:1. 利用多个探测主机探测一个ip,获得一个traceroutes表。2. 选取traceroutes中,最后一跳可见路由中延迟最小的路由作为实际最后一跳路由。3. 对多个ip重复选取最后一跳路由 4.利用最后一跳路由作为分类标准
标签:Geolocation,Level,ip,主机,Hosts,IP,Networks,路由 From: https://www.cnblogs.com/iridescense/p/16742718.html