首页 > 其他分享 >【241027-论文阅读】DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection

【241027-论文阅读】DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection

时间:2024-10-27 20:01:29浏览次数:1  
标签:异构 DGragh Financial 用户 Detection Scale 欺诈 GAD 节点

DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection

DGragh是一个用于图异常检测(gragh anomaly detection, GAD)的大型金融数据集

它包含300w个节点、400w个动态边和100w个ground-truth节点。

作者在关注的问题

大领域:图异常检测(GAD)

现实世界场景中,异常是普遍存在的且具有破坏性的。作者举了一个电汇欺诈的例子:2020年电汇欺诈者造成了高达1.8万亿美元的损失。然而,只有12%-15%的案件被报告,且只有29%的受害者能完全追回资金。因此,研究GAD可以帮助预防和检测这些欺诈者的存在。

中领域:GAD中的异常节点检测

在GAD中具有代表性

目前领域中数据集的困难

GAD数据集的主要要求:缩小学术界和工业界之间的差距

由于现实世界中异常的稀缺性,只有少数公共数据集同时具有图结构和异常的ground-truth标注,所以丰富GAD的多样性是当前GAD研究的基础工作。

从一些具有代表性但当前未被覆盖的领域收集数据集可以大大加快这一过程,因此本文关注金融欺诈检测。

小领域:金融欺诈检测

当前GAD数据集存在的一些局限性:

  1. 规模小
  2. 忽略了图的时间动态
  3. 现实世界场景中,并不是所有节点都需要去被分类/预测的

作者针对这三个问题进行了优化。

因此,以下是对DGragh的简单介绍:

  1. DGragh有300万个节点以及400万条边,且有100万个真实异常标注
  2. 由于在现实场景中并不是所有的节点都需要被分类/预测,但是移除节点又会失去丰富的信息并损害网络结构的连通性,因此,DGragh将这些节点称为background节点,其他称为target节点。DGragh保留了超过200万个background节点(指的是那些由于缺乏借贷行为而不是检测目标的用户)
  3. DGragh中一个节点代表一个Finvolution用户,从一个用户到另一个用户的边表示该用户将另一用户设置为紧急联系人。
  4. DGragh包含丰富的动态信息

DGragh

raw data

总结而言,特定用户的原始数据包括五个组成部分:
(1)用户ID。
(2)基本个人资料信息,如年龄、性别等。
(3)电话号码;注意,每个账户都与特定电话号码匹配。
(4)借贷行为,包括还款到期日和实际还款日期。
(5)紧急联系人,包括每个联系人的姓名、电话号码和最后更新时间。

欺诈者

金融欺诈者经常提供虚假的个人信息,其中一些可能还有奇怪的社交网络(与普通用户相比),还有一些在平台操作上表现异常。

节点特征

源自基本个人资料的节点特征是一个17维的向量,每个维度对应个人资料的一个不同元素(如年龄和性别)。为了保护用户隐私,作者不透露任何维度的具体意义。缺失值被标记为“-1”。
在构建过程中,紧急联系人仅保留那些是Finvolution用户的,以保护用户隐私。

labeling nodes

DGragh中有32.2%节点有相关的借贷记录。
定义:至少有一次,在到期日后很长时间不还款并忽视平台多次提醒的用户为异常/欺诈者。
另一部分借款用户是正常用户,而另一部分没有借贷行为的用户被标记为“背景节点”。

对异常节点和正常节点的观察

  1. 欺诈者和正常用户的平均入度相似,但是平均出度差距显著。正常用户的平均出度是欺诈者的2.33倍。
  2. 欺诈者在出边上的邻居相似性低于正常用户
  3. 缺失值个数的不同
  4. 相同出度下,欺诈者的出边平均时间低于正常用户——表明欺诈者更可能在短时间内填写他们的紧急联系人信息

文章中还有对背景节点的研究,这里不再赘述。

实验 on DGragh

作者围绕以下三个问题:
Q1:当前的GAD模型在DGraph上的表现如何?
Q2:如何处理DGraph的缺失值?
Q3:DGraph的背景节点有多重要?

结论见论文。


基础知识

异构GNN中的“异构”怎么理解?

在异构GNN(Heterogeneous Graph Neural Networks)中,“异构”指的是图的节点或边的类型多样性。与传统的同构图(Homogeneous Graph)不同,异构图包含多种类型的节点和/或多种类型的边。这种多样性通常可以更好地表示复杂的关系和信息结构。

具体来说,异构图中的异构性主要体现在:

  1. 节点异构性:图中存在不同类型的节点。例如,在一个社交网络中,节点可以代表“用户”、“帖子”或“评论”。

  2. 边异构性:图中存在不同类型的边,表示不同的关系或交互。例如,在同一个社交网络中,边可以表示“用户关注用户”、“用户点赞帖子”或“用户评论帖子”。

异构GNN旨在利用这种多样性,通过设计特定的网络结构或机制来有效地捕捉和利用不同类型节点和边之间的复杂关系,从而提高对异构数据的建模能力。

标签:异构,DGragh,Financial,用户,Detection,Scale,欺诈,GAD,节点
From: https://www.cnblogs.com/cjcjc/p/18508838

相关文章

  • 计算机视觉库supervision学习-day(2)-Detections类
    对于day-1,算是一个简要的supervision的使用方法,但对于大部分内容本人还是一知半解,因此我查看官方文档,对照着官方文档来进行supervision的详细学习,并对其中一些重要的方法和属性进行解释DetectionsandSegmentation-检测与分割一、Detections类supervision是这样描述Detection......
  • Ubuntu服务器搭建Tailscale Derp节点
    DerpServer简介Tailscale的终极目标是让任何位置的两台机器建立点对点连接,但现实中,大多数情况下,机器位于NAT和防火墙后面,这时就需要通过打洞实现NAT穿透。Tailscale的私钥仅保存在当前节点,因此DERP服务器无法解密流量,只能像其他互联网路由器一样,将加密流量从一个节点......
  • CSC3100 Problem Scale & Subtasks
    RequirementsCode(90%)YoucanwriteyourcodeinJava,Python,C,orC++.Thetimelimitmayvaryamongdifferentlanguages,dependingontheperformanceofthelanguage.Yourcodemustbeacompleteexcutableprograminsteadofonlyafunction.Weg......
  • Scaled Dot-Product Attention 的公式中为什么要除以 $\sqrt{d_k}$?
    ScaledDot-ProductAttention的公式中为什么要除以\(\sqrt{d_k}\)?在学习ScaledDot-ProductAttention的过程中,遇到了如下公式\[\mathrm{Attention}(\mathbf{Q},\mathbf{K},\mathbf{V})=\mathrm{softmax}\left(\dfrac{\mathbf{Q}\mathbf{K}}{\sqrt{d_k}}\righ......
  • 【论文阅读】【IEEE TGARS】RRNet: Relational Reasoning Network WithParallel Multi
    引言任务:光学遥感显著目标检测-关系推理论文地址:RRNet:RelationalReasoningNetworkWithParallelMultiscaleAttentionforSalientObjectDetectioninOpticalRemoteSensingImages|IEEEJournals&Magazine|IEEEXplore代码地址:rmcong/RRNet_TGRS2021(g......
  • 牛马阅读(知识+重点翻译) Advanced Deep-Learning Techniques for Salient and Category
    ABSTRACT目标检测,包括目标检测(OD)、显著目标检测(SOD)和特定类别的目标检测(COD),是计算机视觉界最基本但最具挑战性的问题之一。在过去的几十年中,研究人员已经做出了巨大的努力来解决这个问题,因为它在其他计算机视觉任务(如活动或事件识别、基于内容的图像检索和场景理解)中得......
  • OmniGenBench: Automating Large-scale in-silico Benchmarking for Genomic Foundati
    本文是LLM系列文章,针对《OmniGenBench:AutomatingLarge-scalein-silicoBenchmarkingforGenomicFoundationModels》的翻译。OmniGenBench:基因组基础模型的大规模计算机基准测试自动化摘要1引言2OmniGenBench3基准结果4相关工作5结论摘要近年来人......
  • Citrix NetscalerStoreFront负载均衡 Load Balancing(精华)
    CitrixNetscalerStoreFront负载均衡LoadBalancing(精华)1.依次展开TrafficManagement/LoadBalancing/Servers,点add添加 在此,我的两台storefront已经全部添加进去4.依次展开TrafficManagement/LoadBalancing/Monitors,点击add添加 6.依次展开TrafficMa......
  • Storefront与NetScaler的集成配置 - part2
    Storefront与NetScaler的集成配置-part2前文介绍了Storefront与NetScaler配置中的StoreFront方面的配置,本章将介绍NetScaler部分的配置。1.从download.citrix.com官方网站下载最新的NetScalerGateway的。对于StoreFront来说,NetSclaer最好使用10.0e和10.1的版本(9.2不支持)。本......
  • 2019-3-13-win10-uwp-使用-ScaleTransform-放大某个元素
    titleauthordateCreateTimecategorieswin10uwp使用ScaleTransform放大某个元素lindexi2019-3-1319:5:56+08002019-03-1316:50:36+0800Win10UWP本文告诉大家如何通过ScaleTransform放大元素放大一个元素的方法有很多个,通过ScaleTransform放大是比较清真的在UWP中Sc......