首页 > 其他分享 >自然语言处理 Paddle NLP - 信息抽取技术及应用

自然语言处理 Paddle NLP - 信息抽取技术及应用

时间:2023-06-20 09:00:30浏览次数:34  
标签:关系 NLP 抽取 实体 信息 文本 Paddle 原文中 自然语言

1.什么是信息抽取

即自动从无结构或半结构的文本中抽取出结构化信息的任务(病历抽取)

2.实体抽取
3.关系抽取
4.事件抽取

信息抽取和知识图谱是一个上下游的关系。抽取的结果,可以组装成知识图谱(一种存储知识的结构)

image
医疗、金融、法律,三大行业用得比较多
image
从问诊中抽取信息
image
贷款审核,大量的纸质、DPF文件,需要将里面的信息进行匹配审核
image

image

image
image

根据抽取结果在不在原文中对信息抽取分类
这次我们只关注抽取式,不在原文中的情况需要参考生成方法

  • 抽取式:结果在原文中
  • 生成式:结果不在原文中,如果生成的结果需要一个知识做为辅助,就需要知识图谱,很多时候不需要知识图谱
    image

抽取式分类

  • 实体抽取
  • 关系抽取
  • 事件抽取
    image

信息抽取的通用评测指标,所有的信息抽取都可以用它评
Precision:抽取出来的结果,抽出来10个,5个对的,就是 50%
Recall:关注模型漏了哪些东西,指标0~1,数值越高,模型越好
F1:Precision和Recall的综合平均,是两个的综合反映
image

抽取模型的关键要素:解码设计
image

实体抽取

从一段文本中抽取出文本内容,并识别为预定义的类别
image

一般是 BIO 解码方式 + CRF 模型结构
image

复杂的实体抽取,无法用 BIO 直接解决(用到关系抽取)
复杂实体抽取中的问题1:重叠嵌套
image
复杂实体抽取中的问题2:不连续
image

image

关系抽取

从文本中抽取出一对实体和预定义的关系类型,得到包含语义信息的实体关系三元组关系是有方向的,抽取的两个实体一般称作头实体(HeadEntity)和尾实体(TailEntity)
image

image
关系分类是关系抽取的第二步
image

解码设计
训练集需要人工标注或其它标注
简单关系抽取
image
复杂关系抽取,将 CRF 升级成 Sigmoid,判断大于 0.5 是一个类别,小于则不是
image
image

实体对组合
image
image

效果最好的模型,可以预测很多个类别
image
SPO 主谓宾
image
image

事件抽取

从一段文本中抽取出预定义的事件触发词和事件要素,组合为相应的结构化信息除了事件,实际应用中信息抽取的结果可能更加复杂,但都可以拆成关系抽取
image
image
image

标签:关系,NLP,抽取,实体,信息,文本,Paddle,原文中,自然语言
From: https://www.cnblogs.com/vipsoft/p/17460173.html

相关文章

  • PaddleOCR环境配置踩坑记录
    前言PaddleOCR的效果目前是开源下最好用的,但是配置环境坑很多,虽然已经配好能用,但是再次使用还是会偶尔报bug,故在此记录一些对应的bug便于查阅。bug对应解决方法1、ImportError:libcudart.so.10.2:cannotopensharedobjectfile:Nosuchfileordirectory找到对应conda环......
  • 【技术积累】自然语言处理中的基础知识【一】
    什么是自然语言处理(NLP)自然语言处理(NaturalLanguageProcessing,NLP)是计算机科学和人工智能领域中的一个重要分支。它研究如何让计算机去理解、处理和生成自然语言,使计算机能够像人一样读、写、听和说自然语言。NLP主要涉及文本处理、语音识别、文本生成等技术。它主要通过利......
  • 自然语言处理 Paddle NLP - 快递单信息抽取 (ERNIE 1.0)
    文档检索:需要把业务问题拆解成子任务。文本分类->文本匹配->等任务->PanddleAPI完成子任务->子任务再拼起来介绍在2017年之前,工业界和学术界对文本处理依赖于序列模型RecurrentNeuralNetwork(RNN).图1:RNN示意图基于BiGRU+CRF的快递单信息抽取项目介绍了如何使......
  • 自然语言处理与机器翻译:挑战与机遇
    目录自然语言处理与机器翻译是人工智能技术领域中的两个重要分支。它们利用机器学习和深度学习算法来处理自然语言文本,并生成对应的机器翻译结果。本文将详细介绍自然语言处理与机器翻译技术原理及概念、实现步骤与流程、应用示例与代码实现讲解、优化与改进以及未来发展趋势与挑......
  • 自然语言处理中的文本摘要:从文本到算法
    目录1.引言2.技术原理及概念3.实现步骤与流程3.1准备工作:文本预处理3.2特征提取3.3文本分类3.4摘要生成4.应用示例与代码实现讲解4.1应用场景介绍4.2应用实例分析4.3核心代码实现4.4代码讲解5.优化与改进5.1数据增强5.2正则化5.3特征选择6.结论与展望"自然语言......
  • 人工智能创业投资项目案例:基于自然语言处理技术的社交媒体分析
    目录人工智能创业投资项目案例:基于自然语言处理技术的社交媒体分析随着社交媒体的不断发展和普及,越来越多的企业和个人开始通过社交媒体进行营销和宣传。社交媒体数据分析成为了现代商业中必不可少的一部分。然而,传统的方法很难精确地分析社交媒体上的用户行为和数据,而基于自......
  • LLM技术在自然语言处理中的实践与改进
    目录《LLM技术在自然语言处理中的实践与改进》引言自然语言处理(NLP)是人工智能领域的一个重要分支,它研究如何将计算机程序与人类语言进行交互,从而理解、分析、生成和翻译文本。近年来,随着深度学习算法的不断优化,NLP技术在语音识别、文本分类、情感分析、机器翻译等方面取得......
  • 人工智能领域:面试常见问题超全(深度学习基础、卷积模型、对抗神经网络、预训练模型、计
    人工智能领域:面试常见问题超全(深度学习基础、卷积模型、对抗神经网络、预训练模型、计算机视觉、自然语言处理、推荐系统、模型压缩、强化学习、元学习)人工智能领域:面试常见问题1.深度学习基础为什么归一化能够提高求解最优解的速度?为什么要归一化?归一化与标准化有什么联系......
  • 自然语言处理 Paddle NLP - 词法分析技术及其应用
    词法分析就是利用计算机对自然语言的形态(morphology)进行分析,判断词的结构和类别等。”简单而言,就是分词并对每个词进行分类,包括:分词、词性标注、实体识别三个任务问答知识图谱,类似一张表,里面放了姚明(人)、妻子(属性)对应的是谁这张表来源于网页挖掘,也是词法分析,进行对应......
  • 自然语言处理技术在自然语言生成中的应用
    目录标题:《11.《自然语言处理技术在自然语言生成中的应用》》背景介绍自然语言处理技术(NLP)是一种人工智能技术,旨在使计算机理解和生成自然语言。NLP技术可以用于许多不同的应用场景,如机器翻译、文本摘要、情感分析、语音识别等。在自然语言生成方面,NLP技术可以用于生成自......