首页 > 其他分享 >NLP 概念

NLP 概念

时间:2023-09-05 11:56:10浏览次数:35  
标签:NLP 概率模型 模型 单词 概念 马尔可夫 序列 标注

序列标注,给定一个序列,找出序列中每个元素对应的标签。

中文分词、词性标注、命名实体识别都可以转化为序列标注问题。

 

词法分析:中文分词、词性标注、命名实体识别

中文分词:将文本分隔为有意义的词语

词性标注:确定每个词语的类别和浅层的歧义消除

命名实体识别:识别出较长的专有名词(人名、地名、机构名)

 

信息抽取、文本分类与文本聚类、句法分析(给译文重新排序)、语义分析与篇章分析(消除歧义)

 

语料库

词语种数:语料库中有多少个不重复的词语

总词频:所有词语的词频之和

词语种数和总词频分别用来衡量语料库用语的丰富程度和规模大小。

 

N元语法模型

N元语法模型利用前面N-1个单词来预测下一个单词。

单词序列模型是概率模型,概率模型是给单词的符号串指派概率的方法,不论是计算整个句子的概率,还是在一个序列中预测下一个单词的概率,都要使用概率模型。

马尔科夫模型是一种概率模型,假设不必查看很远的过去就可以遇见某个单位的将来概率。在二元语法模型的基础上,我们可以推广到三元语法模型(看过去2个单词),再推广到N元语法模型(看过去N-1个单词)。

 

每个汉字组词时所处的位置(首尾等)作为标签,则可以将中文分词转化为给定给定汉字序列找出标签序列的问题,字构词是 序列标注 模型的一种应用。

 

HMM(Hidden Markov Model) 和 CRF

隐马尔可夫模型 和 条件随机场

马尔可夫假设:每个事件的发生概率只取决于前一个事件。

将满足马尔科夫假设的连续多个事件串联在一起,就构成了马尔可夫链。在NLP语境下,马尔可夫模型可以具象为二元语法模型。

隐马尔可夫模型是描述两个时序序列联合分布的概率模型,外界可见的称为观测序列,外界不可见的称为状态序列

隐马尔可夫链包含状态序列和观测序列,满足两个假设:

1.当前状态仅仅依赖于前一个状态;

2.任意时刻的观测只依赖于该时刻的状态,与其他时刻的状态或观测独立无关。

标签:NLP,概率模型,模型,单词,概念,马尔可夫,序列,标注
From: https://www.cnblogs.com/pass-ion/p/17679243.html

相关文章

  • AI「反腐」,德国马普所结合 NLP 和 DNN 开发抗蚀合金
    内容一览:在被不锈钢包围的世界中,我们可能都快忘记了腐蚀的存在。然而,腐蚀存在于生活中的方方面面。无论是锈迹斑斑的钢钉,老化漏液的电线,还是失去光泽的汽车,这一切的发生都与腐蚀有关。据统计,全世界每年由金属腐蚀带来的经济损失超过2.5万亿美元,远超过其他自然灾害。其中,腐蚀在中......
  • linux 软链接 硬链接概念与应用
    示例示例Linux软链接:软链接是一种特殊的文件,它允许用户在不同目录中创建多个同名文件的快捷方式。软链接可以通过ln命令创建,它会在指定的目录中创建一个指向另一个文件的软连接。Linux软链接:软链接是一种特殊的文件,它允许用户在不同目录中创建多个同名文件的快捷方式。软链接可......
  • NLP 序列标注
    转载:https://blog.csdn.net/kevinjin2011/article/details/113939817序列标注(Sequencelabeling)是NLP问题中的基本问题。在序列标注中,我们想对一个序列的每一个元素标注一个标签。一般来说,一个序列指的是一个句子,而一个元素指的是句子中的一个词。 NLP中的序列标注方式常用的......
  • 发布策略:蓝绿部署、金丝雀发布(灰度发布)、AB测试、滚动发布、红黑部署的概念与区别
    蓝绿发布(Blue-GreenDeployment)蓝绿发布提供了一种零宕机的部署方式。不停老版本,部署新版本进行测试,确认OK,将流量切到新版本,然后老版本同时也升级到新版本。始终有两个版本同时在线,有问题可以快速切换。蓝绿部署中,一共有两套系统:一套是正在提供服务系统,标记为“绿色”;另一......
  • Python中列表的概念
    在编程中,列表(List)是一种常用的数据结构,用于存储一组有序的元素。列表是Python中的内置数据类型之一,它允许你在一个变量中存储多个值,并且这些值可以是不同的数据类型,包括整数、浮点数、字符串、其他列表等。Python中的列表使用方括号[]来定义,其中的元素之间用逗号,分隔。以下......
  • Pod 资源调度策略概念详解(十二)
    前言在云计算时代,有效地在Kubernetes集群中调度Pod资源是至关重要的。在本文中,我们将深入探讨Kubernetes集群中Pod资源调度策略的概念,以及如何根据需求选择最佳的调度策略。首先,我们需要了解Kubernetes集群中的Pod资源调度。在Kubernetes中,Pod是最小的、可部署的单......
  • MySql中 BufferPool 的基本概念介绍
    MySQL的BufferPool是MySQL数据库引擎用来缓存数据页(页是磁盘上的一块固定大小的数据单元)的内存区域。BufferPool在MySQL服务器启动时被初始化,然后在整个数据库生命周期中用于高效地管理数据库页的读取和写入。BufferPool是MySQL性能的关键组成部分之一,因为它可以显著减少与磁盘I......
  • flink教程:flink的有界、无界数据流、流批一体、容错能力等概念
    能否详细解释一下其中的数据流、流批一体、容错能力等概念?概述数据流:所有产生的数据都天然带有时间概念,把事件按照时间顺序排列起来,就形成了一个事件流,也被称作数据流。流批一体:首先必须先明白什么是有界数据和无界数据有界数据,就是在一个确定的时间范围内的数据流,有开始,......
  • openGauss学习笔记-59 openGauss 数据库管理-相关概念介绍
    openGauss学习笔记-59openGauss数据库管理-相关概念介绍59.1数据库数据库用于管理各类数据对象,与其他数据库隔离。创建数据对象时可以指定对应的表空间,如果不指定相应的表空间,相关的对象会默认保存在PG_DEFAULT空间中。数据库管理的对象可分布在多个表空间上。59.2表空间在......
  • Android内存优化内存抖动的概念和危害
    内存抖动是一种内存管理的不良现象,它会影响应用的性能和稳定性。本文将从以下几个方面介绍内存抖动的定义、原因、后果和检测方法。一、内存抖动的定义内存抖动示例图内存抖动是指内存频繁分配和回收导致的不稳定现象。在Java中,内存分配和回收是由垃圾回收器(GC)来管理的。GC会定期扫......