首页 > 其他分享 >NLP 中 Embedding(词嵌入) 和 Tokenizer(分词器) 分别是什么?

NLP 中 Embedding(词嵌入) 和 Tokenizer(分词器) 分别是什么?

时间:2023-05-06 11:14:36浏览次数:36  
标签:NLP 嵌入 Tokenizer 单词 或子 分词器 维度 文本

NLP 中 Embedding(词嵌入) 和 Tokenizer(分词器) 分别是什么?

Embedding(词嵌入)和Tokenizer(分词器)是在自然语言处理中常用的两种技术,用于将文本转换为计算机可以处理的数字表示。

Tokenizer(分词器)

是将文本转换为单词或子词序列的过程。在自然语言处理中,文本通常是由一系列单词或子词组成的,而分词器的任务就是将这些单词或子词从文本中分离出来,并将它们转换为计算机可以处理的数字表示。 例如,在英文中,可以使用空格或标点符号将单词分开;在中文中,需要使用中文分词技术将连续的汉字分成词语。分词器可以使用基于规则的方法、基于统计的方法或者基于神经网络的方法来实现。

Embedding(词嵌入)

是将单词或子词转换为向量表示的过程。在自然语言处理中,单词或子词通常被表示为一个高维度的稀疏向量,其中每个维度对应一个单词或子词的特征。 例如,在一个包含 10000 个单词的词表中,每个单词可以表示为一个大小为 10000 的稀疏向量,其中只有一个维度为 1,其余维度都为 0。这种高维度的稀疏表示不仅浪费存储空间,而且难以计算单词之间的相似度。因此,词嵌入技术被用来将单词或子词映射到一个低维度的稠密向量空间中,从而可以更有效地表示和计算单词之间的相似度。词嵌入模型通常使用神经网络,例如 Word2Vec、GloVe 和 FastText 等。

在自然语言处理任务中,分词器和词嵌入技术通常是联合使用的,以将文本转换为计算机可以处理的数字表示。例如,在文本分类任务中,可以使用分词器将文本分成单词序列,然后使用词嵌入技术将每个单词表示为一个向量,最后将这些向量输入到神经网络中进行分类。这种联合使用的技术被广泛应用于文本分类、文本生成、机器翻译、问答系统等自然语言处理任务中。

标签:NLP,嵌入,Tokenizer,单词,或子,分词器,维度,文本
From: https://www.cnblogs.com/michaelcjl/p/17376644.html

相关文章

  • 击败GPT3,刷新50个SOTA!谷歌全面统一NLP范式
    文|ZenMoore编|小轶写在前面一觉醒来,迷糊之中看到一条推特:瞬间清醒!Google的YiTay(andMostafa)团队提出了一个新的策略Mixture-of-Denoisers,统一了各大预训练范式。重新思考现在的预训练精调,我们有各种各样的预训练范式:decoder-onlyorencoder-decoder,spancorrupti......
  • EMNLP 2022 最佳论文揭晓!这脑洞绝了….
    前言读文章之前,我们先来思考人工智能中一个核心而底层的问题:什么是抽象以及它能够给我们带来什么?我们这里说的“抽象”是一个认知学上的概念,著名学者ChatGPT说:“抽象是指不依赖于具体事物或实例,而是指抽取共同点或基本特征的思维过程。”在人类智能中,抽象是一个很底层很基本的......
  • NLP中数据增强
    DataAugmentationApproachesinNaturalLanguageProcessing:ASurvey数据增强方法数据增强(DataAugmentation,简称DA),是指根据现有数据,合成新数据的一类方法。毕竟数据才是真正的效果天花板,有了更多数据后可以提升效果、增强模型泛化能力、提高鲁棒性等。然而由于NLP任务天生......
  • 【NLP教程】用python调用百度AI开放平台进行情感倾向分析
    目录一、背景二、操作步骤2.1创建应用2.2获取token2.3情感倾向分析三、其他情感分析四、讲解视频一、背景Hi,大家!我是@马哥python说,一名10年程序猿。今天我来演示一下:通过百度AI开放平台,利用python调用百度接口进行中文情感倾向分析,并得出情感极性分为积极、消极还是中性以......
  • 劲(很)霸(不)酷(好)炫(用)的NLP可视化包:Dodorio 使用指北
    朋友们,朋友们,事情是这样的。最近心血来潮,突然想起很久以前看过的一个NLP可视化包。它的效果是下面这个样子:在此之前,已经有一些文章从论文的角度对这个包进行了介绍,详情请见推荐一个可交互的Attention可视化工具!我的Transformer可解释性有救啦?当时我第一眼就被这个包的效果折......
  • 十级NLPer才能笑出声的算法梗!
    文|付奶茶近期小编整理出了一些非常好笑的梗图,与各位NLPer共赏,希望与大家一起评选出本期最好笑的梗图选手!【1号选手:非常擅长讲笑话的NLM】前排评论区:(1)Ienjoyedyourjokeaboutjokeaboutjokeaboutjokeaboutjokeaboutjokeaboutjokeaboutjokeaboutjokeaboutlanguag......
  • HanLP
    向生产环境的多语种自然语言处理工具包,基于PyTorch和TensorFlow2.x双引擎,目标是普及落地最前沿的NLP技术。HanLP具备功能完善、精度准确、性能高效、语料时新、架构清晰、可自定义的特点。https://githubfast.com/hankcs/HanLP/tree/doc-zh......
  • 自然语言处理(Natural Language Processing,NLP)简要
    自然语言处理(NaturalLanguageProcessing,NLP)简要一、发展状况二、发展优势三、发展瓶颈四、具体研究方向五、自然语言处理工具六、未来发展方向自然语言处理(NaturalLanguageProcessing,NLP)是计算机科学和人工智能领域的一个重要研究方向,其目的是使计算机能够理......
  • NLP深度网络中self.embedding(x)词嵌入后降维方法
    在自然语言处理中的循环神经网络中,经常使用torch定义类,self.embedding(x)中,x是输入,介绍self.embedding(x)返回结果,以及结果的形状,并解释这个形状在自然语言处理中的循环神经网络中,使用PyTorch定义类时通常会包含一个嵌入层(embeddinglayer)。在嵌入层中,使用self.embedding(x)语......
  • 【NLP开发】Python实现聊天机器人(OpenAI,开发指南笔记)
    1、开始使用1.1介绍OpenAIAPI几乎可以应用于任何涉及理解或生成自然语言或代码的任务。我们提供一系列具有不同功率水平的型号,适用于不同的任务,并能够微调您自己的定制模型。这些模型可用于从内容生成到语义搜索和分类的所有内容。提示和完成(Promptsandcompletions)compl......