首页 > 其他分享 >自然语言处理 Paddle NLP - 词法分析技术及其应用

自然语言处理 Paddle NLP - 词法分析技术及其应用

时间:2023-08-02 23:01:28浏览次数:29  
标签:分析 NLP 标签 Paddle 词法 OOV 分词 标注

词法分析就是利用计算机对自然语言的形态(morphology) 进行分析,判断词的结构和类别等。”简单而言,就是分词并对每个词进行分类,包括:分词、词性标注、实体识别三个任务

自然语言处理 Paddle NLP - 词法分析技术及其应用_数据集

自然语言处理 Paddle NLP - 词法分析技术及其应用_词性标注_02

自然语言处理 Paddle NLP - 词法分析技术及其应用_数据集_03

自然语言处理 Paddle NLP - 词法分析技术及其应用_数据集_04


问答

知识图谱,类似一张表, 里面放了 姚明(人) 、妻子(属性)对应的是谁

这张表来源于网页挖掘,也是词法分析,进行对应识别

自然语言处理 Paddle NLP - 词法分析技术及其应用_数据集_05


对话

词法分析得到标签,根据动作进行具体操作

自然语言处理 Paddle NLP - 词法分析技术及其应用_词法分析_06


自然语言处理 Paddle NLP - 词法分析技术及其应用_词法分析_07

自然语言处理 Paddle NLP - 词法分析技术及其应用_词法分析_08


自然语言处理 Paddle NLP - 词法分析技术及其应用_词法分析_09


自然语言处理 Paddle NLP - 词法分析技术及其应用_数据集_10


自然语言处理 Paddle NLP - 词法分析技术及其应用_数据集_11

对每个字打标签:B 是一个词的开始,I 是一个词的持续,通过一个公式转换成序列标注

自然语言处理 Paddle NLP - 词法分析技术及其应用_词性标注_12


自然语言处理 Paddle NLP - 词法分析技术及其应用_词法分析_13


自然语言处理 Paddle NLP - 词法分析技术及其应用_词性标注_14


自然语言处理 Paddle NLP - 词法分析技术及其应用_词法分析_15


自然语言处理 Paddle NLP - 词法分析技术及其应用_词法分析_16

OOV(out of vocabulary) 问题:新词,没有见过的词

将预训练模型插进来进行替换,解决OOV问题

自然语言处理 Paddle NLP - 词法分析技术及其应用_词法分析_17

预测有4个词,只有3个和标签标注的一样,它的准确就是 3/4

只有一个错了应该是8/9 实际比它要小,所以说以词为力度去计算是一个更严格的标准。

自然语言处理 Paddle NLP - 词法分析技术及其应用_词法分析_18


基于上面的评估方法得到的一个准确率和效果,MSR数据集(分词数据集)BERNIE-CRF效果最好。

最长匹配,准确率还可以,还是有很多地方在使用,高效简单

自然语言处理 Paddle NLP - 词法分析技术及其应用_数据集_19

自然语言处理 Paddle NLP - 词法分析技术及其应用_词性标注_20


自然语言处理 Paddle NLP - 词法分析技术及其应用_数据集_21

自然语言处理 Paddle NLP - 词法分析技术及其应用_词性标注_22


自然语言处理 Paddle NLP - 词法分析技术及其应用_词性标注_23


自然语言处理 Paddle NLP - 词法分析技术及其应用_词性标注_24


自然语言处理 Paddle NLP - 词法分析技术及其应用_词性标注_25


自然语言处理 Paddle NLP - 词法分析技术及其应用_词法分析_26


自然语言处理 Paddle NLP - 词法分析技术及其应用_词法分析_27



标签:分析,NLP,标签,Paddle,词法,OOV,分词,标注
From: https://blog.51cto.com/u_15116285/6944198

相关文章

  • 自然语言处理 Paddle NLP - 文本语义相似度计算(ERNIE-Gram)
    基于预训练模型ERNIE-Gram实现语义匹配1.背景介绍文本语义匹配任务,简单来说就是给定两段文本,让模型来判断两段文本是不是语义相似。在本案例中以权威的语义匹配数据集LCQMC为例,LCQMC数据集是基于百度知道相似问题推荐构造的通问句语义匹配数据集。训练集中的每两段文本都会被......
  • cuda11.5 paddlepaddle-gpu安装出错
    检查安装paddlepaddle-gpu版本为cuda11.5没有对应的版本报错信息RunningverifyPaddlePaddleprogram...I080216:31:52.487021271111interpretercore.cc:237]NewExecutorisRunning.W080216:31:52.487298271111gpu_resources.cc:119]PleaseNOTE:device:0,G......
  • paddleocr Linux安装lanms-neo报错
     检查一般来说是g++环境问题添加源根据不同的的系统查找编辑/etc/apt/sources.list debhttp://archive.ubuntu.com/ubuntubionicmainuniverse 更新gcc和g++sudoapt-getupdatesudoapt-getinstallgcc-6sudoaptinstallg++-6sudoupdate-alternatives--......
  • python 安装paddle
    如何安装PaddlePaddle作为一名经验丰富的开发者,我将向你介绍如何安装PaddlePaddle,一个强大的Python深度学习框架。PaddlePaddle为开发者提供了丰富的工具和库,帮助他们构建和训练深度学习模型。安装步骤下面是安装PaddlePaddle的步骤,我将用一个表格展示每个步骤的概要。步骤......
  • nlp入门
    源码请到:自然语言处理练习:学习自然语言处理时候写的一些代码(gitee.com)一、字符串处理这里是一些自然语言中常用的python字符串操作,python内置无需安装1.1strip函数:去掉首尾特定字符示例:text="abcdef125swr2258abcd"print("base",text)print("strip:......
  • AIGC与NLP大模型实战-经典CV与NLP大模型及其下游应用任务实现
    点击下载:AIGC与NLP大模型实战-经典CV与NLP大模型及其下游应用任务实现提取码:hqq8当今社会是科技的社会,是算力快速发展的时代。随着数据中心、东数西算、高性能计算、数据分析、数据挖掘的快速发展,大模型得到了快速地发展。大模型是“大算力+强算法”相结合的产物,是人工智能的发展......
  • 高精度离线免费 的C#文字识别PaddleOCR库
    随便打开一个MicrosoftVisualStudio,新建一个WinForms项目,从下面列表中随便选择一个NET框架。目标平台要设置成X64,该OCR仅支持64位。 123net35;net40;net45;net451;net452;net46;net461;net462;net47;net471;net472;net48;netstandard2.0;netcoreapp3.1;net5.0......
  • NLP | safetensors是什么文件
    safetensors是谷歌开发的一种TensorFlowLite模型文件格式,用于在移动设备上运行模型。.safetensors文件是用numpy保存的,这意味着它们只包含张量数据,没有任何代码,加载.safetensors文件更安全和快速。如果你想在手机上打开本地后缀为safetensors的模型文件,可以按照以下步骤操作......
  • 【AI夏令营】NLP赛题解析与Baseline逐行精读
    【任务】1.深入研读baseline代码,仔细理解其每个部分,并记录详尽的学习笔记;2.主动挑战自己,对基线代码进行优化,力求改进代码的实际效果和性能;3.完成任务二,并查看个人成绩排行榜。【Baseline精读】本次主要是针对任务二(关键词提取,也会有部分任务一的内容)首先是库文件的导入:#......
  • NLP网络的输入和输出为何长度一样
    NLP网络的输入和输出为何长度一样自然语言处理(NaturalLanguageProcessing,简称NLP)是一门研究人类语言与计算机之间交互的学科。在NLP中,神经网络模型被广泛应用于各种任务,如文本分类、机器翻译、情感分析等。在这些任务中,我们经常遇到一个问题:为什么NLP网络的输入和输出长度一样?......