首页 > 其他分享 >自然语言处理 Paddle NLP - 词法分析技术及其应用

自然语言处理 Paddle NLP - 词法分析技术及其应用

时间:2023-06-16 13:24:16浏览次数:56  
标签:分析 NLP 标签 Paddle 词法 自然语言 分词 标注

词法分析就是利用计算机对自然语言的形态(morphology) 进行分析,判断词的结构和类别等。”简单而言,就是分词并对每个词进行分类,包括:分词、词性标注、实体识别三个任务

image

image

image

image
问答
知识图谱,类似一张表, 里面放了 姚明(人) 、妻子(属性)对应的是谁
这张表来源于网页挖掘,也是词法分析,进行对应识别
image
对话
词法分析得到标签,根据动作进行具体操作
image
image

image
image
image
image

对每个字打标签:B 是一个词的开始,I 是一个词的持续,通过一个公式转换成序列标注
image
image
image
image
image

OOV(out of vocabulary) 问题:新词,没有见过的词
将预训练模型插进来进行替换,解决OOV问题
image

预测有4个词,只有3个和标签标注的一样,它的准确就是 3/4
只有一个错了应该是8/9 实际比它要小,所以说以词为力度去计算是一个更严格的标准。
image
基于上面的评估方法得到的一个准确率和效果,MSR数据集(分词数据集)BERNIE-CRF效果最好。
最长匹配,准确率还可以,还是有很多地方在使用,高效简单
image

image
image

image
image
image
image
image
image

标签:分析,NLP,标签,Paddle,词法,自然语言,分词,标注
From: https://www.cnblogs.com/vipsoft/p/17458536.html

相关文章

  • PaddleOCR 训练工具Win 10下安装步骤
           1、从这里面下载代码包,可能比较慢。     2、进入这个目录:      3、尝试运行E:\>cdE:\paddleOCR\PaddleOCR\PPOCRLabelE:\paddleOCR\PaddleOCR\PPOCRLabel>pythonPPOCRLabel.py--langchTraceback(mostrecentcalllast):......
  • 批量生成,本地推理,人工智能声音克隆框架PaddleSpeech本地批量克隆实践(Python3.10)
    云端炼丹固然是极好的,但不能否认的是,成本要比本地高得多,同时考虑到深度学习的训练相对于推理来说成本也更高,这主要是因为它需要大量的数据、计算资源和时间等资源,并且对超参数的调整也要求较高,更适合在云端进行。在推理阶段,模型的权重和参数不再调整。相反,模型根据输入数据的特征......
  • 自己动手写编译器:词法解析的系统化研究
    在前面章节中,我们千辛万苦的做了一个可以将部分c语言代码进行解析并编译成中间语言的微型编译器,通过实践我们对编译技术的整体架构和实现原理有了一定的感性认识,实现了“没吃过猪肉但见过猪跑”,从本节开始,我们正式进入“吃猪肉”的过程,我们将非常系统的去研究编译原理各部分理论和......
  • ​关于深度学习、NLP和计算机视觉的30个顶级Python库
    正文字数:2214 阅读时长:3分钟再次感谢艾哈迈德·阿尼斯(AhmedAnis)为收集这些数据做出的贡献,并感谢KDnuggets的其他工作人员的意见,见解和建议。作者/ MatthewMayo原文链接/https://www.kdnuggets.com/2020/11/top-python-libraries-deep-learning-natural-language-processing......
  • 自然语言处理 Paddle NLP - 词向量应用展示
    词向量(Wordembedding),即把词语表示成实数向量。“好”的词向量能体现词语直接的相近关系。词向量已经被证明可以提高NLP任务的性能,例如语法分析和情感分析。PaddleNLP已预置多个公开的预训练Embedding,您可以通过使用paddlenlp.embeddings.TokenEmbedding接口加载各种预训练Embedd......
  • 编译原理:词法分析实验
    实验二词法分析实验目的根据PL/0语言的文法规范,编写PL/0语言的词法分析程序。通过设计调试词法分析程序,实现从源程序中分出各种单词的方法;加深对课堂教学的理解;提高词法分析方法的实践能力。掌握从源程序文件中读取有效字符的方法和产生源程序的内部表示文件的法。掌......
  • 使用NLPAUG 进行文本数据的扩充增强
    在机器学习中,训练数据集的质量在很大程度上决定了模型的有效性。我们往往没有足够的多样化数据,这影响了模型的准确性。这时数据增强技术就派上了用场。数据增强可以通过添加对现有数据进行略微修改的副本或从现有数据中新创建的合成数据来增加数据量。这种数据扩充的方式在CV中十......
  • [人工智能-NLP]使用GPT-2预训练模型进行微调
    下面是一个使用GPT-2进行微调的示例。以文本生成为例,我们将微调GPT-2来生成新闻标题。此外,我们将使用PyTorch作为深度学习框架,以便于构建和训练模型。安装PyTorch和Transformers首先需要安装PyTorch和Transformers库。在终端中输入以下命令:pipinstalltorchtransformers......
  • 自然语言处理(NLP)学习笔记——文本预处理
    自然语言处理入门1、什么是自然语言处理自然语言处理(NaturalLanguageProcessing,简称NLP)是计算机科学与语言学中关注于计算机与人类语言间转换的领域。2、自然语言处理的发展简史1950年,计算机科学之父图灵在论文中提出“机器可以思考吗”者一划时代的问题,从此促成了人类语言学与计......
  • Stanford NLP第三课“最小编辑距离(Minimum Edit Distance)”
    一、课程介绍斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛DanJurafsky和ChirsManning教授授课:链接地址以下是本课程的学习笔记,以课程PPT/PDF为主,其他参考资料为辅,融入个人拓展、注解,抛砖引玉,欢迎大家在“我爱公开课”上一起探讨学习。课件汇总下载......