首页 > 其他分享 >论文阅读:DeepKE:A Deep Learning Based Knowledge Extraction Toolkit for Knowledge Base Population

论文阅读:DeepKE:A Deep Learning Based Knowledge Extraction Toolkit for Knowledge Base Population

时间:2023-10-25 22:44:05浏览次数:36  
标签:Based Knowledge 模型 实体 Module Extraction Learning DeepKE

DeepKE,支持数据集和模型的结合来实现非结构化数据中信息的提取。
同时提出框架和一系列的组件来实现足够的模块化和可扩展性。
项目地址

1. Introduction

现存的KB是在实体和关系方面是不完备的。
常见的一些标志性的应用:

  1. Spacy(实体识别)
  2. OpenNER(关系提取)
  3. OpenIE(信息提取)
  4. RESIN(事件抽取)

存在的问题:各个现存的工具仅支持一种任务,同时难以应用在复杂的现实世界中(文档和多模态级别的数据)

本篇文章提出开源知识提取工具名为DeepKE。
支持:少资源、文件和多模态设置
并提供模块化和自动超参数优化

image
主要内容如上所示

2. Core Functions

主要是实体识别、关系识别与属性识别

2.1 Named Entity Recognition

输入句子,找到特定的实体和对应的类型
采用预训练的语言模型去编码句子并进行预测。
支持few-shot和多模态

2.2 Relation Extraction

提供了多种多样的模型
如CNN、RNN、GCN、Transformer、BERT。
在节省资源方面,采用了一种KnowPrompt方式。
在文件领域,主要采用了一种DocuNet的方式

2.3 Attribute Extraction

给定句子、实体和属性的描述
DeepKE可以推断属性的类型

3 Tooklit Design and Implementation

本工具包主要包含如下方面:

  1. 为多种任务提出统一的框架:data、model和core
  2. 提供超参数自动训练和评估,并提供docker提升运算效果
  3. 提供预训练的模型进行信息的提取

3.1 Data Module

image
tokenizer可处理英文和中文的信息,
在多模式设置条件下也可以实现视觉信息的处理。
用户输入自身的数据集,处理后得到一系列的tokens或image patches

3.2 Model Module

支持CNN,RNN,Transformer等神经网络模型。
同时,在不同的任务场景下,也会尝试采用不同模型
如在标准的RE任务,采用BERT,在NER采用BART

3.3 Core Module

train用填入期望的参数,如(模型、数据、epoch、损失函数等)
validate主要用于评估
predict用于结果的获取

3.4 Framework Module

将上述三个部分和不同场景相组合,
用户可以自动修改超参数

标签:Based,Knowledge,模型,实体,Module,Extraction,Learning,DeepKE
From: https://www.cnblogs.com/zjz2333/p/17788132.html

相关文章

  • [论文速览] SimCSE@ Simple Contrastive Learning of Sentence Embeddings
    Pretitle:SimCSE:SimpleContrastiveLearningofSentenceEmbeddingsaccepted:EMNLP2021paper:https://arxiv.org/abs/2104.08821code:https://github.com/princeton-nlp/SimCSEref:https://zhuanlan.zhihu.com/p/368353121关键词:contrastivelearning,sentenc......
  • UniKGQA Unified Retrieval and Reasoning for Solving Multi-hop Question Answering
    目录概主要内容代码JiangJ.,ZhouK.,ZhaoW.andWenJ.UniKGQA:Unifiedretrievalandreasoningforsolvingmulti-hopquestionansweringoverknowledgegraph.ICLR,2023.概统一:从知识图谱中检索出相关的子图,并在子图中进行推理.主要内容我们有知识图谱......
  • Open Domain Question Answering Using Early Fusion of Knowledge Bases and Text
    目录概主要内容代码SunH.,DhingraB.,ZaheerM.,MazaitisK.,SalakhutdinovR.andCohenW.W.Opendomainquestionansweringusingearlyfusionofknowledgebasesandtext.EMNLP,2018.概KnowledgeBases+Text的推理.主要内容假设我们有一个不完全的知......
  • Transformer-based Encoder-Decoder Models
    整理原链接内容方便阅读https://colab.research.google.com/github/patrickvonplaten/notebooks/blob/master/Encoder_Decoder_Model.ipynbtitle:"Transformer-basedEncoder-DecoderModels"thumbnail:/blog/assets/05_encoder_decoder/thumbnail.pngauthors:user:p......
  • 论文阅读:Unifying Large Language Model and Knowledge Graph:A RoadMap
    1Introduction大模型和知识图谱结合的综述。简单介绍一下大模型和知识图谱的优缺点:如上所示。本文主要划分为三个模块,分别为:KG-enhancedLLMsLLM-augmentedKGsSynergizedLLM+KG2Background主要介绍了LLM和KG2.1LargeLanguageModel(LLMs)主要依靠transforme......
  • 论文阅读:Learning Semantic Segmentation of Large-Scale Point Clouds With Random S
    LearningSemanticSegmentationofLarge-Scale PointCloudsWithRandomSampling用随机抽样法学习大规模点云的语义分割摘要我们研究了大规模三维点云的有效语义分割问题。由于依赖昂贵的采样技术或计算量大的前/后处理步骤,大多数现有的方法只能在小规模的点云上进行训练和操......
  • Makefile knowledge summarization
    WildcardThewildcardinmakefileissimilarwithmacroinC/C++,itisn'tsimilarwithwildcardinlinuxshell,soitdoesn'texpendautomatically.object1=*.c//*.cobject2=$(wildcard*.cpp)//main.cppt1.cppt2.cppAutomaticallygene......
  • Codeforces Round 902 (Div. 2, based on COMPFEST 15 - Final Round)
    \(D.EffectsofAntiPimples\)对每个数字能到达的所有位置先预处理最大值,那么就代表选择这个数字之后真实的贡献,那么对这样的预处理值,最小值显然只有一种做法,为\(2^0\),第二小的值应该可以与最小值一起选择,所以答案为\(2^1\),以此类推之后,每个值乘上对应的2的幂次之后求和即......
  • Paper Reading: Sample and feature selecting based ensemble learning for imbalanc
    目录研究动机文章贡献本文方法基于聚类的分层随机欠采样特征选择样本和特征选择的集成学习基于随机森林的SFSHEL实验结果数据集和实验设置KEEL数据集的比较HeartFailure数据集的比较优点和创新点PaperReading是从个人角度进行的一些总结分享,受到个人关注点的侧重和实力所限......
  • GRLSTM:基于图的残差LSTM轨迹相似性计算《GRLSTM: Trajectory Similarity Computation
    2023年10月18日,14:14。来不及了,这一篇还是看的翻译。论文:GRLSTM:TrajectorySimilarityComputationwithGraph-BasedResidualLSTM(需要工具才能访问)Github: AAAI2023的论文。 摘要轨迹相似性的计算是许多空间数据分析应用中的一项关键任务。然而,现有的方法主要是......