前言
自然语言处理(NLP)是一个多学科领域,它融合了计算机科学、人工智能和语言学,使计算机能够理解、解释和生成人类语言。它包含多个子领域,如下:
- NLU:自然语言理解 **Natural Language Understanding,**理解文本和语音背后的含义。
- NLG: 自然语言生成 **Natural Language Generation,**从数据中生成类人文本。
本文旨在介绍NLP领域核心的关键概念,闲话少说,我们直接开始吧!
Tokenization
Tokenization是将文本分解为称为单个Token单元的过程,Token可以是单词或子单词单元。Token是进行NLP 任务的基础,因为它们提供了文本数据的结构化表示,从而可以进行有效的语言分析和处理。
一般在对输入文本进行Tokenization后,我们还会获得相应Token的embedding,过程如下:
关于embedding会在下文单独章节进行描述。
Stemming and Lemmatization
这些技术主要用于将单词还原为词基或词根形式:
- Stemming:去除前缀或后缀,找到单词的词干,这可能不是一个有效的单词。
- **Lemmatization:**利用词汇和词形分析找到单词的词目,即有效的单词形式。这两种技术都能将文本规范化,以便于后续处理和分析。
Part-Of-Speech Tagging
POS标记主要指为文本中的每个词(如名词、动词和形容词)分配语法类别。这一步骤对于理解句子结构至关重要,也是文本解析、机器翻译和情感分析等任务的关键。
Named Entity Recognition
NER 可识别文本中的命名实体并对其进行分类,例如人名、地名、组织名称和日期。它对信息提取和文本理解至关重要,使系统能够定位文档中的特定实体并对其进行分类。
Bag of Words
BOW 是一种简单的文本表示技术,它在语料库中创建一个独特的词汇表,并计算它们在文档中的出现频率。这种方法用于文档分类和信息检索,但不能捕捉词语的语义信息。
Word Embedding
单词嵌入在一个连续的向量空间中表示单词,在这个空间中,含义相近的单词彼此更接近。与 BOW 不同,Word Embedding可以捕捉词与词之间的语义关系。Word2Vec 和 GloVe 等流行方法提供了高密度、上下文感知的表示方法,可提高 NLP 模型的性能。
Word2Vec
Word2Vec 是一种流行的单词嵌入模型,主要提供两种架构:
- **CBOW:**根据周围的语境词预测目标词。
- ****Skip-gram:****根据目标词预测上下文词。
Word2Vec 可捕捉单词与上下文以及上下文与单词之间的关系,因此是一种强大的文本数据语义提取工具。
RNN
RNN多用于处理序列数据,维持一个隐藏状态,该状态随着新序列元素的处理而变化。它们适用于涉及序列数据的 NLP 任务,但由于梯度消失问题,它们在处理长距离依赖关系时很吃力。
LSTM
LSTM 是 RNN 的一种变体,它通过一种复杂的门控机制来控制通过隐藏状态的信息流,从而解决梯度消失问题。LSTM 在机器翻译和文本生成等需要长序列建模的任务中表现出色。
ELMo
ELMo 利用双向 LSTM 生成深度语境化的单词表征,以捕捉特定语境的含义。ELMo 可有效编码多义词和语境,从而提高各种 NLP 任务的性能。
Transformer
Transformer结构的提出代表了NLP领域的一大进步。它们使用自我注意机制来权衡不同输入序列部分的重要性,并行处理整个序列。这使得它们具有可扩展性,并能有效捕捉长距离依赖关系。
Transformer采用encoder-decoder架构,可在海量文本库中进行预训练,然后针对特定任务进行微调。BERT、GPT 和 RoBERTa 等模型树立了新的标杆,在文本分类、NER、机器翻译和问题解答等任务中具有良好的通用性。
总结
总之,本文全面概述了 NLP领域的基本概念和技术。无论你是初学者还是希望加深理解,本文所提供的资源和图例都将帮助大家开始进入自然语言处理的迷人世界。
标签:NLP,自然语言,单词,扫盲,Token,序列,文本 From: https://blog.51cto.com/u_16163453/11909449