首页 > 其他分享 >自然语言处理NLP入门核心概念扫盲

自然语言处理NLP入门核心概念扫盲

时间:2024-09-03 17:57:40浏览次数:17  
标签:NLP 自然语言 单词 扫盲 Token 序列 文本


前言

自然语言处理(NLP)是一个多学科领域,它融合了计算机科学、人工智能和语言学,使计算机能够理解、解释和生成人类语言。它包含多个子领域,如下:

自然语言处理NLP入门核心概念扫盲_ai

  • NLU:自然语言理解 **Natural Language Understanding,**理解文本和语音背后的含义。
  • NLG: 自然语言生成 **Natural Language Generation,**从数据中生成类人文本。

本文旨在介绍NLP领域核心的关键概念,闲话少说,我们直接开始吧!

Tokenization

Tokenization是将文本分解为称为单个Token单元的过程,Token可以是单词或子单词单元。Token是进行NLP 任务的基础,因为它们提供了文本数据的结构化表示,从而可以进行有效的语言分析和处理。

自然语言处理NLP入门核心概念扫盲_自然语言处理_02

一般在对输入文本进行Tokenization后,我们还会获得相应Tokenembedding,过程如下:

自然语言处理NLP入门核心概念扫盲_语言模型_03

关于embedding会在下文单独章节进行描述。

Stemming and Lemmatization

这些技术主要用于将单词还原为词基或词根形式:

  • Stemming:去除前缀或后缀,找到单词的词干,这可能不是一个有效的单词。
  • **Lemmatization:**利用词汇和词形分析找到单词的词目,即有效的单词形式。这两种技术都能将文本规范化,以便于后续处理和分析。

自然语言处理NLP入门核心概念扫盲_ai_04

Part-Of-Speech Tagging

POS标记主要指为文本中的每个词(如名词、动词和形容词)分配语法类别。这一步骤对于理解句子结构至关重要,也是文本解析、机器翻译和情感分析等任务的关键。

自然语言处理NLP入门核心概念扫盲_agi_05

Named Entity Recognition

NER 可识别文本中的命名实体并对其进行分类,例如人名、地名、组织名称和日期。它对信息提取和文本理解至关重要,使系统能够定位文档中的特定实体并对其进行分类。

自然语言处理NLP入门核心概念扫盲_自然语言处理_06

Bag of Words

BOW 是一种简单的文本表示技术,它在语料库中创建一个独特的词汇表,并计算它们在文档中的出现频率。这种方法用于文档分类和信息检索,但不能捕捉词语的语义信息。

自然语言处理NLP入门核心概念扫盲_人工智能_07

Word Embedding

单词嵌入在一个连续的向量空间中表示单词,在这个空间中,含义相近的单词彼此更接近。与 BOW 不同,Word Embedding可以捕捉词与词之间的语义关系。Word2VecGloVe 等流行方法提供了高密度、上下文感知的表示方法,可提高 NLP 模型的性能。

自然语言处理NLP入门核心概念扫盲_语言模型_08

自然语言处理NLP入门核心概念扫盲_语言模型_09

Word2Vec

Word2Vec 是一种流行的单词嵌入模型,主要提供两种架构:

  • **CBOW:**根据周围的语境词预测目标词。
  • ****Skip-gram:****根据目标词预测上下文词。

自然语言处理NLP入门核心概念扫盲_自然语言处理_10

Word2Vec 可捕捉单词与上下文以及上下文与单词之间的关系,因此是一种强大的文本数据语义提取工具。

RNN

RNN多用于处理序列数据,维持一个隐藏状态,该状态随着新序列元素的处理而变化。它们适用于涉及序列数据的 NLP 任务,但由于梯度消失问题,它们在处理长距离依赖关系时很吃力。

自然语言处理NLP入门核心概念扫盲_语言模型_11

LSTM

LSTMRNN 的一种变体,它通过一种复杂的门控机制来控制通过隐藏状态的信息流,从而解决梯度消失问题。LSTM 在机器翻译和文本生成等需要长序列建模的任务中表现出色。

自然语言处理NLP入门核心概念扫盲_语言模型_12

ELMo

ELMo 利用双向 LSTM 生成深度语境化的单词表征,以捕捉特定语境的含义。ELMo 可有效编码多义词和语境,从而提高各种 NLP 任务的性能。

自然语言处理NLP入门核心概念扫盲_人工智能_13

Transformer

Transformer结构的提出代表了NLP领域的一大进步。它们使用自我注意机制来权衡不同输入序列部分的重要性,并行处理整个序列。这使得它们具有可扩展性,并能有效捕捉长距离依赖关系。

Transformer采用encoder-decoder架构,可在海量文本库中进行预训练,然后针对特定任务进行微调。BERTGPTRoBERTa 等模型树立了新的标杆,在文本分类、NER、机器翻译和问题解答等任务中具有良好的通用性。

自然语言处理NLP入门核心概念扫盲_ai_14

总结

总之,本文全面概述了 NLP领域的基本概念和技术。无论你是初学者还是希望加深理解,本文所提供的资源和图例都将帮助大家开始进入自然语言处理的迷人世界。


标签:NLP,自然语言,单词,扫盲,Token,序列,文本
From: https://blog.51cto.com/u_16163453/11909449

相关文章

  • 自然语言处理领域的两大巨头,谁将引领未来?
    在探索自然语言处理(NLP)及更广泛的人工智能(AI)领域的未来走向时,我们不得不将目光投向几个关键玩家:GPT-4o作为OpenAI的杰作,Llama作为Meta(原Facebook)的力作,以及那些正迅速崭露头角的新兴力量。这两者各自拥有独特的优势,并将在未来的发展中扮演至关重要的角色。本文将从专业角度......
  • arXiv最热NLP大模型论文:一文读懂大模型的prompt技术
    引言:探索高效提示方法的重要性在人工智能领域,大语言模型(LLMs)已经成为了自然语言处理(NLP)任务的重要工具。随着模型规模的不断扩大,如何高效地利用这些模型,尤其是在资源有限的情况下,成为了一个迫切需要解决的问题。提示方法(Prompting)作为一种新兴的范式,能够通过简洁的指令引导模型完成......
  • 大模型书籍推荐:大模型黑书《基于GPT-3、ChatGPT、GPT-4等Transformer架构的自然语言处
    一、内容介绍Transformer正在颠覆AI领域。这本书将引导你使用HuggingFace从头开始预训练一个RoBERTa模型,包括构建数据集、定义数据整理器以及训练模型等。《基于GPT-3、ChatGPT、GPT-4等Transformer架构的自然语言处理》分步展示如何微调GPT-3等预训练模型。研究机器翻......
  • 【NLP修炼系列之Bert】Bert多分类&多标签文本分类实战(附源码)
    引言今天我们就要用Bert做项目实战,实现文本多分类任务和我在实际公司业务中的多标签文本分类任务。通过本篇文章,可以让想实际入手Bert的NLP学习者迅速上手Bert实战项目。1项目介绍本文是Bert文本多分类和多标签文本分类实战,其中多分类项目是借鉴github中被引用次数比较......
  • 掌握 BERT:自然语言处理 (NLP) 从初级到高级的综合指南(1)
    简介BERT(来自Transformers的双向编码器表示)是Google开发的革命性自然语言处理(NLP)模型。它改变了语言理解任务的格局,使机器能够理解语言的上下文和细微差别。在本文[1]中,我们将带您踏上从BERT基础知识到高级概念的旅程,并配有解释、示例和代码片段。BERT简介什么......
  • 449页pdf!深入探讨大语言模型的世界:赵宇教授新书《自然语言处理:大模型理论与实践》
    随着人工智能技术的飞速发展,自然语言处理成为了计算机科学与人工智能领域中不可或缺的关键技术之一。作为一名长期致力于人工智能和自然语言处理研究的学者,我见证了这一领域的迅猛变革,从基于规则的方法到现今基于深度学习的革命性技术,尤其是大模型技术的应用,给自然语言处理......
  • 什么是激活函数?零基础扫盲~
    我刚开始学习深度学习的时候,看到了这么一段话:作者把非线性激活函数(ReLU)用在了模型里,发现训练速度显著提高,原因在于传统用的是饱和非线性激活函数,例如tanh,训练时如果进入到饱和区域,那么会因为梯度变化过小而难以训练;而ReLU是一种非饱和非线性激活函数,接受阈是0~∞∞,不存在tan......
  • 【Python机器学习】NLP词中的数学——主题建模
    目录齐普夫定律相关度排序工具其他工具OkapiBM25在文档向量中,词计数是有用的,但是纯词计数,即使按照文档长度进行归一化处理,也不能告诉我们太多该词在当前文档相对于语料库中其他文档的重要度信息。如果能弄清楚这些信息,我们就能开始描述语料库中的文档了。假设我们有一......
  • NLP从零开始------15.文本中阶序列处理之语言模型(3)
    4. 注意力机制4.1 注意力机制        循环神经网络的一个主要局限是不能很好地建模长距离依赖,即使像长短期记忆这样的变体也只是改善而不是完全解决了长距离依赖的问题。其根本原因在于,如果序列中的第i个词需要对第j个词(假设j>i)产生影响,需经过j-i个计算步骤, 而......
  • 用Python爬取地图信息被捕了?Python主要有哪些用途:Web开发、数据科学和人工智能、科学
    近日,一起关于导航电子地图“拥堵延时指数”数据权益的不正当竞争纠纷案在北京市朝阳区人民法院落下帷幕,引发热议。 爬虫确实是学习Python最有意思的一件事情,也是Python很擅长的事情之一。很多铁铁日常使用Python爬天爬地,也还有很多想学爬虫来自动获取数据。如果你正在学习......