首页 > 其他分享 >少样本知识图谱补全技术研究概述(持续更新,现在读文献还太少,等我读文献的)

少样本知识图谱补全技术研究概述(持续更新,现在读文献还太少,等我读文献的)

时间:2024-03-14 21:58:36浏览次数:14  
标签:Hits 知识 补全 图谱 实体 三元组 还太少 文献

一、少样本知识图谱补全概述和相关内容

1、知识图谱概述

1.1知识图谱定义

        知识图谱(knowledge graph,KG)用结构化的形式描述客观世界中概念、实体及其关系,它将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。

        知识图谱以三元组的形式(头实体,关系,尾实体)存储知识和事件,以网络的形式作为展示,在网络中每个节点代表实体,节点之间相互连接的边代表关系。

        知识图谱 G 表示为三元组 {(h,r,t)}⊆ E × R × E 的集合,其中 E 和 R 是实体集合和关系集合。每个三元组都由一个关系 r ∈ R 和两个实体 h,t ∈ E 组成,它们之间可以表示为头实体 h 到尾实体 t 有一条有向边r连接。

        目前一些大规模知识图谱 NELL(never-ending language learner)、Wikidate、YAGO(yet another great ontology)等被广泛应用于各种自然语言处理任务中,例如语义搜索、智能问答、推荐系统等。

1.1.2知识图谱嵌入

        知识图谱嵌入(knowledge graph embedding,KGE)旨在将实体和关系嵌入到潜在的低维数字表示中。

        在过去几年,KGE 方法被证明在知识图谱补全任务上是有效的,并且许多 KGE 方法已经应用于知识图谱补全任务,其中包括TransE(translating embedding)、ComplEx(complex embeddings)和 ConvE(convolutional 2D knowledge graph embeddings)等方法。

        但是目前的这些方法都假设知识图谱包含足够的实体和关系数据,然而在KG中少样本关系数据是广泛存在的 ,例如Wikidate中大约有10%的关系只有不超过10个三元组实例。此外,在实际应用的过程中,社交媒体或推荐系统产生的KG,会随着时间的流动进行动态更新,更新后的新关系通常只有少量的三元组实例。这种情况会导致大部分知识图谱补全方法的效果下降,因为这些方法都要求拥有足够的训练实例,所以在只拥有少数三元组实例的情况下,如何完成知识图谱补全任务是重要且具有挑战性的。

2、知识图谱补全概述

2.1知识图谱补全目的

        尽管知识图谱中有着大量的实体、关系、三元组,但是现有的大部分知识图谱都是不完整的,具体体现在一些实体之间缺少对应的关系,一些头实体和关系间缺少对应的尾实体。知识图谱补全任务(knowledge graph completion,KGC)旨在学习知识图谱中现有的实体关系三元组,进而推断出知识图谱缺失的实体或关系。

2.2知识图谱补全任务分类        

        1、在已知两个实体 (h,?,t) 的情况下,预测其中的关系r ;

        2、在已知头部实体和关系 (h,r,?) 的情况下,预测尾部实体 t 。

        目前研究者更专注于后一种研究。

2.3少样本知识图谱补全面临的困难

        1、少样本/零样本知识图谱补全程度不高

        2、无法很好利用知识图谱中的结构信息

        3、邻域信息的使用和去噪:忽略三元组周围的高阶邻域信息(多跳邻域信息);在集合实体邻域信息时,有些实体并没有很多邻居信息,但是伴随编码范围的扩大,会引入很多无关的信息甚至是噪音信息

        4、动态时序知识图谱补全任务相关研究较少

2.4少样本知识图谱补全的一些相关内容

        1、背景知识图谱G':当前知识图谱G的一个子集,其中包含和任务关系r相关的三元组

        2、实体的一跳邻居集合Ne:一般在FKGC任务中 Ne也被称为实体e的邻域,它是由背景知识图谱G′产生,其中包含所有与实体e相连接的关系r和尾实体t

        3、少样本关系的邻域:针对少样本关系 r 而言,它自身的邻域可以被定义为 {h,t,Nh,Nt} ,其中 h、t 是头实体和尾实体,它们和关系 r 可以构成一个三元组(h,r,t) ;Nh、Nt 是头实体和尾实体的一跳邻居集合。

二、少样本知识图谱补全方法简要介绍

1、基于度量学习的方法

        度量学习的方法一般是从一组待训练的任务中学习到可概括的距离公式和相应的匹配函数,进而推广到新出现的任务中,此类方法大多采用深度孪生网络中所提出的通用匹配框架 Matching Nets。

        在 KGC 中,很多 KGC 模型在训练过程中都需要大量的数据作为支撑,如果在FKGC任务中使用,就会面对性能受限制或者没有足够数据支持的问题。

1.1Gmatching

        参考文献:Xiong W, Yu M, Chang S, et al. One-shot relational learning for knowledge graphs[J]. arXiv preprint arXiv:1808.09040, 2018.

        Xiong等人在2018年提出(第一次定义少样本知识图谱补全概念)

        Gmatching 模型的核心是利用实体嵌入信息和局部图结构来构建匹配度量函数。模型思想是针对当前任务的关系 r ,计算查询实体对与参考实体对的相似度,排序得到正确尾实体 ttrue 的排名。

邻居编码器:利用实体的一跳邻居增强每个实体的表示的信息量;传入(关系,邻居实体);手动限定最大邻居数;

匹配处理器:将从邻居编码器中取得的任意两个实体对的向量表示,然后在两个实体对之间执行多步匹配,并输出标量作为相似度分数。

1.2FSRL

        参考文献:Zhang C, Yao H, Huang C, et al. Few-shot knowledge graph completion[C]//Proceedings of the AAAI conference on artificial intelligence. 2020, 34(03): 3041-3048.

        Zhang等人在2020年提出FSRL(few- shot relation learning)

1.3FAAN

        参考文献:Sheng J, Guo S, Chen Z, et al. Adaptive attentional network for few-shot knowledge graph completion[J]. arXiv preprint arXiv:2010.09638, 2020.

1.4TransAM

        参考文献:Liang Y, Zhao S, Cheng B, et al. Exploring entity interactions for few-shot relation learning (student abstract)[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(11): 13003-13004.

2、基于元学习的方法

        元学习就是学会学习的学习,其特点是只使用少量的训练样本,也能快速学习新的概念或知识。在 FKGC的研究中,基于元学习的方法旨在学习训练任务中的关联三元组特征,从而在新的任务上进行泛化。

2.1MetaR

        参考文献:Chen M, Zhang W, Zhang W, et al. Meta relational learning for few-shot link prediction in knowledge graphs[J]. arXiv preprint arXiv:1909.01515, 2019.

        MetaR 模型是由 Chen 等人在 2019 年提出的,该模型是第一个将元学习应用于 FKGC 上的方法。MetaR 模型的核心是利用关系元信息和梯度元信息来加速模型的更新迭代与完成 FKGC任务。

2.2Meta-KGR

        参考文献:Lv X, Gu Y, Han X, et al. Adapting meta knowledge graph information for multi-hop reasoning over few-shot relations[J]. arXiv preprint arXiv:1908.11513, 2019.

2.3GANA

        参考文献:Niu G, Li Y, Tang C, et al. Relational learning with gated and attentive neighbor aggregator for few-shot knowledge graph completion[C]//Proceedings of the 44th international ACM SIGIR conference on research and development in information retrieval. 2021: 213-222.

2.4Meta-iKG

        参考文献:Zheng S, Mai S, Sun Y, et al. Subgraph-aware few-shot inductive link prediction via meta-learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2022.

3、基于其他模型的方法

3.1基于双重过程理论的模型 CogKR

        参考文献:Du Z, Zhou C, Ding M, et al. Cognitive knowledge graph reasoning for one-shot relational learning[J]. arXiv preprint arXiv:1906.05489, 2019.

3.2基于知识协同微调方法的模型KnowCo-Tuning

        参考文献:张宁豫, 谢辛, 陈想, 等. Knowledge collaborative fine-tuning for low-resource knowledge graph completion[J]. Journal of software, 2022, 33(10): 3531-3545.

3.3基于对抗迁移学习的模型 wRAN

       参考文献:Zhang N, Deng S, Sun Z, et al. Relation adversarial network for low resource knowledge graph completion[C]//Proceedings of the web conference 2020. 2020: 1-12.

3.4基于注意力机制的模型Attention-Model       

        参考文献:Xie H, Li A, Jia Y. Few-shot knowledge reasoning method based on attention mechanism[C]//Proceedings of the 2019 8th International Conference on Computing and Pattern Recognition. 2019: 46-51

三、少样本知识图谱补全实验比较

1、常用数据集

少样本知识图谱补全常用数据集
数据集关系实体训练集验证集测试集
NELL-One3586854551511
Wiki-One82248382441331634
NELL-995373078---
Umls46135329652661
WN18RR18409438830343134
FB15K-23737145411896175352000

2、常用评价指标

        目前针对少样本知识图谱补全算法,还没有特定的评价指标,而是使用传统的知识图谱补全算法的评价指标 MRR 以及 Hits@n,其中 MRR 是每个少样本知识图谱补全算法普遍使用的评价指标,此外,不同的少样本知识图谱补全算法也会采用不同的Hits@n指标。

2.1MRR

        MRR指标代表在所有预测的三元组中正确实体在预测结果中的平均排名的倒数,该指标数值越大代表正确实体的排名越靠前,是评价少样本知识图谱补全算法的重要指标。


2.2Hits@n

        Hits@n 指标代表在所有预测的三元组中正确的缺失实体排名在前 n 名的概率,例如 Hits@1 代表正确的缺失实体在所有预测结果中排名第一的概率。该指标的数值越大代表少样本知识图谱补全算法的性能越好,常见的指标参数为 Hits@10、Hits@3 和Hits@1。

3、模型比较

少样本知识图谱补全模型比较
分类名称发表年份数据集评价指标优点局限性模型思路
基于度量学习的方法Gmatching2018NELL-One、
Wiki-One
MRR
Hits@10
Hits@5
Hits@1
处理新添加的关系时也无需重新训练模型平等地对待邻域中的不同信息利用实体嵌入模型提取的信息、局部图结构来学习匹配度量函数
FSRL2020NELL-One、
Wiki-One
MRR
Hits@10
Hits@5
Hits@1
在参考三元组集合中集成了来自多 个三元 组的信息赋予每种信息静态的权重利用异构邻居解码器分配给邻域信息不同的权重
FAAN2020NELL-One、
Wiki-One
MRR
Hits@10
Hits@5
Hits@1
使用了实体和关系的动态属性忽略了三元组内部和三元组间的交互利用自适应注意力邻居编码器和Transformer
编码器分别捕捉实体与关系的动态信息
TransAM2022NELL-One、
Wiki-One
MRR
Hits@10
Hits@5
Hits@1
构建了一种新颖的匹配方法不能处理复杂的少样本关系利用注意力机制捕捉三元组内和三元组间实体的交互信息
基于元学习的方法MetaR2019NELL-One、
Wiki-One
MRR
Hits@10
Hits@5
Hits@1
利用梯度元学习使模型加速更新忽略了参考集三元组对关系表示的影响利用元学习来找到通用的参数,以快速适应新的关系任务
Meta-KGR2019FB15K-237、
NELL-995
MRR
Hits@10
Hits@1
可以给出多跳的推理路径不能找到没有路径的答案将强化学习和元学习进行结合
GANA2021NELL-One、
Wiki-One
MRR
Hits@10
Hits@5
Hits@1
去除了邻域中的噪音信息在N-N上效果不好通过门控网络和图注意力机制过滤邻域中的噪音信息
Meta-iKG2022FB15K-237、
NELL-995
AUC-PR
Hits@10
加入了多样本关系的更新过程不能很好地解决反对称关系的三元组利用局部子图来传输特定的子图信息
基于其他模型的方法注意力机制模型(Attention-Model)2019NELL-One、
Wiki-One
MRR
Hits@10
Hits@5
Hits@1
减少模型参数忽略了邻域中的噪声信息利用注意力机制构建匹配函数
CogKR2019NELL-One、
Wiki-One
MRR
Hits@10
Hits@5
Hits@1
图结构的数据更加灵活,搜索效率提高对长路径推理能力差利用认知图谱结构对现有的知识图谱进行检索和更新迭代
wRAN2020FB1.5M、
FB15K-237-low
MRR
Hits@10
Hits@5
Hits@1
识别不相关关系并降低其权重对语义相似的样本在识别精度上有待提升利用权重关系对抗学习减少负迁移的影响
KnowCo-Tuning2022

Umls、WN18RR、FB15K-237(mini)

MRR
Hits@10
训练简单且有效忽略了实体自身的邻域信息结合知识图谱的显示知识和预训练语言模型的隐式知识

注:后续会更新简要介绍每个模型的整体思路,具体模型详解请按参考文献自行查找

注:本文模型整理规划存在遗漏或偏差,后续随缘补充更新新的参考文献及模型

标签:Hits,知识,补全,图谱,实体,三元组,还太少,文献
From: https://blog.csdn.net/qq_45444343/article/details/136627127

相关文章

  • mysql查询几天之前,或某个时间段之间的每天记录数量,不存在补全0
    直接看SQL(非常简单,通俗易懂)biz_requirement_order:业务表名create_time:业务表时间字段,依据这个字段统计数量num:数量返回值别名,可以随意改t表:查询所有符合条件的日期a表:业务表中根据日期分组,查询每天的记录数量最后使用左连接查询,将两个集合合并返回最终结果查询几天之前......
  • EndNote 21:文献整理与引用,一键轻松搞定 mac/win版
    EndNote21是一款功能强大的文献管理软件,专为学术研究者、学生和教师设计。它提供了全面的文献管理解决方案,帮助用户轻松整理、引用和分享学术文献。→→↓↓载EndNote21mac/win版EndNote21拥有直观的用户界面和强大的文献检索功能,用户可以轻松地从各种数据库和在线资源中导......
  • 文献笔记:LINE: Large-scale Information Network Embedding
    https://arxiv.org/pdf/1503.03578v1.pdf本文研究了将非常大的信息网络嵌入到低维向量空间的问题,这在可视化、节点分类和链路预测等许多任务中都很有用。大多数现有的图形嵌入方法无法扩展到通常包含数百万个节点的现实世界信息网络。在本文中,我们提出了一种名为“LINE”的新型网......
  • Scopus-快速下载学者全部文献至Endnote
    scopus网址(中文):https://www.scopus.com/search/form.uri?display=authorLookup#authorscopus网址(英文):https://blog.scopus.com/进入作者主页,下拉找到【全部导出】.ris格式导入Endnote即可特别感谢:快速下载一个学者所有文章-淼淼兮予怀 -博客园 https://www.cnbl......
  • django分页后过滤数据,要进行补全数据的方法
    项目开发中遇到一个问题:当分页后还要进行数据处理,可能导致原本分页返回的数据不足,那么需要从另外一页进行数据补全(也要数据进行过滤)。自己写了一个小的组件:defdata_paging(queryset,page,limit,deal_func=None,*args,**kwargs):#创建分页器对象paginator=......
  • SAT及其能解决的问题及其文献
      %SAT及其能解决的问题TheCDCLSATsolverisanimportanttoolforsolvinglargereal-worldproblems,andhasbeenwidelyusedinsoftwaredebugging,designverification,cryptography,artificialintelligenceandotherfields.Thepowerfulcapabiliti......
  • 如何绕过Python readline的Tab-补全
    在Python中,readline模块提供了一个交互式的命令行输入接口,其中的Tab补全是指用户在输入时按下Tab键,系统会自动尝试完成当前输入的命令或路径。Tab补全的主要功能是帮助用户更快速、更准确地输入命令或路径,尤其是当有很多可能的选项时。下面我将用详细的步骤来说明Tab补全......
  • 2023年度全年学术论文参考文献清单汇总
    状态时间详情结果 2023-07-2508:55'新媒体时代博物馆数字化,人文化,品牌化传播策略——以湖北省博物馆为例'全文链接:'https://wenku.baidu.com/view/bc9fdd13fac75fbfc77da26925c52cc58ad690d0?fr=xueshu_top'VP:病毒潜水艇时间:2023-07-2508:57  2023-0......
  • mac下git命令自动补全
    本文亲测可用。老版本macos方法:1、打开网页,https://raw.githubusercontent.com/git/git/master/contrib/completion/git-completion.bash全选,复制内容。2、在~/.bash_profile文件(如果没有需要创建)中加入以下内容即可生效if\[-f~/.git-completion.bash\];then.~/.gi......
  • AndroidStudio-创建Kotlin匿名内部类时自动补全
    AndroidStudio-创建Kotlin匿名内部类时自动补全用Kotlin写代码,当要创建匿名类实例时,总是要自己手敲出来,不像Java一样,输入new就会有代码提示出来,去网上搜索,大部分都是AndroidStudio按住ctrl+空格键,或者ctrl+alt+空格会出现代码提示,我试了,嗯...好像啥反应也没有,然后发现每次按,输入......