nlp基础之词、子词或字符

时间：2024-08-09 10:39:45浏览次数：4

标签：字符 nlp 处理之词句子文本分词子词

在文本处理过程中，分词可以将文本拆解成不同层次的基本单元：词、子词或字符。这些基本单元在自然语言处理（NLP）任务中有不同的应用场景和效果。以下是对词、子词、字符的解释和举例说明：

1. 词（Word）

定义: 词是文本中由空格或标点符号分隔的最基本的语义单元。每个词通常代表一种独立的含义。
举例:
- 英文句子: "I love programming."
  - 分词结果: ["I", "love", "programming"]
- 中文句子: "我爱编程。"
  - 分词结果: ["我", "爱", "编程"]
应用: 词级别的分词适用于语言较为规整的场景，如英文。对于中文等没有明显分词标记的语言，需要通过分词算法来实现。

2. 子词（Subword）

定义: 子词是比词更小的语言单元，通常是通过算法将词分解为更小的语义单元或字符组合。子词级别分词可以应对未登录词（OOV）问题，且在多语言和词形变化处理方面效果较好。
算法: 常见的子词分词算法包括 BPE（Byte Pair Encoding）和 WordPiece。
举例:
- 英文句子: "unhappiness"
  - 子词分词结果（BPE）: ["un", "happiness"]
  - 子词分词结果（WordPiece）: ["un", "##happiness"]
  - 解释: 在 WordPiece 中，"##" 表示这是一个词的一部分。
- 中文句子: "我爱编程"
  - 子词分词结果: ["我", "爱", "编", "程"]
  - 解释: 尤其对于复合词，“编程”可以拆分为“编”和“程”，尽管这种拆分在中文中不常见。
应用: 子词级分词特别适用于处理大量词形变化的语言，如英语中不同的词缀（前缀、后缀），以及跨语言应用。

3. 字符（Character）

定义: 字符级别分词是将文本中的每个字符作为一个独立的单元。字符级分词不依赖任何分词规则，直接对每个字符进行处理。
举例:
- 英文句子: "hello"
  - 字符分词结果: ["h", "e", "l", "l", "o"]
- 中文句子: "我爱编程"
  - 字符分词结果: ["我", "爱", "编", "程"]
应用: 字符级分词适用于处理形态复杂或有大量新词的文本，如社交媒体数据、用户生成内容等。它能很好地解决未登录词问题，但需要更复杂的模型来理解字符组合成的语义。

对比总结

词级分词: 直接将文本拆分成完整的词语，保留了每个词的独立语义。适用于常规文本处理。
子词级分词: 将词分解为更小的单位，能够应对未登录词和复杂词形变化。常用于多语言处理和模型压缩。
字符级分词: 直接对每个字符进行处理，不依赖语言规则，能够处理复杂、无结构化文本，但语义理解较为困难。

不同的分词方式在处理不同类型的文本时，各有优势，选择合适的分词方式能够提高模型的处理能力和泛化性能。

标签：字符,nlp,处理,之词,句子,文本,分词,子词
From： https://www.cnblogs.com/chentiao/p/18350348

nlp基础之-词汇表构建的具体做法
词汇表构建（VocabularyBuilding）是文本数据预处理中的关键步骤，涉及从训练语料中生成一个包含所有可识别单词、子词或字符的集合。具体做法如下：1.数据收集与清洗数据收集:收集所有待处理的文本数据，包括训练集、验证集和测试集。数据清洗:在构建词汇表之前，清洗数据以去除噪声......
【深度学习与NLP】——快速入门Pytorch基本语法
目录Pytorch基本语法1.1认识Pytorch1.1.1什么是Pytorch1.1.2Pytorch的基本元素操作1.1.3 Pytorch的基本运算操作1.1.4 关于TorchTensor和Numpyarray之间的相互转换1.1.5小节总结1.2Pytorch中的autograd1.2.1关于torch.Tensor1.2.2关于Tensor的操作1.2.3......
无法在 Gekko 中求解 MINLP（警告不再有可能的试验点且没有整数解）
我对python中的Gekko包非常陌生。我的目标是最大化'Q_factor'我已有的训练有素的TensorFlow模型(.keras)。我在稳态模式(m.options.IMODE=2)下使用Gekko进行参数估计，并使用(m.options.SOLVER=1)进行以下一些约束：我的MINLP......
HanLP和BERT-BiLSTM-CRF在命名实体识别上的区别
HanLP和BERT-BiLSTM-CRF在命名实体识别（NamedEntityRecognition,NER）方面的主要区别体现在模型架构、特征提取能力、训练方式以及应用场景的适应性上。1.模型架构HanLP：HanLP是一个开源的自然语言处理工具包，它提供了包括命名实体识别在内的多种中文文本处理功能。HanLP内部......
NLP从零开始------7基础文本处理之关键词提取
1.关键词提取技术简介在现代。文本是海量的信息中量最大的、使用最广泛的一种数据类型。这些信息数据虽然能为人们的生活提供便利。但是在提取有价值的信息时仍面临着困难。通过关键词提取可以快速地提取一篇新闻的关键信息。关键词是能够反应文本主......
NLP从零开始------6基础文本处理之命名实体识别
1.命名实体识别介绍命名实体识别（NamedEntityRecognition，NER）中的“命名实体”一般是指文本中具有特别意义或指代性非常强的实体（比如：人名，地名，时间或者机构组织等）。命名实体可分为实体类、时间类和数字类3大类，以及人名、机构名、地名、时间......
AI/机器学习（计算机视觉/NLP）方向面试复习1
1. 判断满二叉树所有节点的度要么为0，要么为2，且所有的叶子节点都在最后一层。#include<iostream>usingnamespacestd;classTreeNode{public: intval; TreeNode*left; TreeNode*right;//创建的时候输入参数x，会把x给val，nullptr给left和right TreeNode(intx):va......
Datawhale AI 夏令营--NLP自然语言学习过程
Task1:首先我们先无脑跑通本次学习的第一个baseline1.本次我们使用的是魔塔社区提供的GPU进行项目推进：2.在Notebook中启用由魔塔提供的编译服务，我们运行Task1代码，随后将生成的txt文档上传到评分的NLP竞赛平台，最后会得到本次学习的第一个分数。（可能到这里很多初学者都不明白......
《昇思25天学习打卡营第17天|热门LLM及其他AI应用-基于MindNLP+MusicGen生成自己的个
基于MindNLP+MusicGen生成自己的个性化音乐MusicGen是来自MetaAI的JadeCopet等人提出的基于单个语言模型（LM）的音乐生成模型，能够根据文本描述或音频提示生成高质量的音乐样本，相关研究成果参考论文《SimpleandControllableMusicGeneration》。MusicGen是一种单个语言模......
从零入门NLP竞赛Task1学习记录
一、魔搭平台操作流程首先，通过阅读文档，我按照相应步骤进入了魔搭平台，并在GPU环境下上传了数据和代码文件。在成功运行并跑通baseline后，我发现下载的压缩包和对应代码文件的具体用途目前还不甚明了，但我相信通过后续的学习，我会逐渐理解它们的作用。在等待过程中，我顺便了解了机器......

nlp基础之词、子词或字符

1. 词（Word）

2. 子词（Subword）

3. 字符（Character）

对比总结

相关文章

赞助商

阅读排行