NLP-transformer-分词库用法

参考文档： https://blog.csdn.net/orangerfun/article/details/124089467

1 pip install transformer

2 下载专有的vocab.txt词典

　　这个词典用于把单词-> id -> 词向量

　　https://github.com/google-research/bert

3 实例化分词实例

1 from transformers import BertTokenizer
2 import torch
3 
4 token = r"vocab.txt"
5 
6 bert_tokenizer = BertTokenizer(vocab_file=token)

View Code

4 分词任务

# 1 分词任务
res = bert_tokenizer.tokenize("山海关总兵官吴三桂")
print(res)

['山', '海', '关', '总', '兵', '官', '吴', '三', '桂']

5 转为id

# 2 转化为id
# 接受一个词或字列表
idres = bert_tokenizer.convert_tokens_to_ids("山海关总兵官吴三桂")
print(idres)
idres = bert_tokenizer.convert_tokens_to_ids(res)
print(idres)
# 一个字时候是否是准的？ 准确id
idres = bert_tokenizer.convert_tokens_to_ids("山")
print(idres)

6 转文字

# id转字
wordres = bert_tokenizer.convert_ids_to_tokens([2255, 3862, 1068, 2600, 1070, 2135, 1426, 676, 3424])
# 可以成功转为对应汉字
print(wordres)
# 来看看 前面误操作的 100 能转为什么
wordres = bert_tokenizer.convert_ids_to_tokens(100)
print(wordres)

View Code

7 使用回调函数实现批量等工程级别操作

text: 需要被编码的文本，可以是一维或二维list 最好是一维的
padding: 是否需要padding，可选如下几个值
truncation: 是否要进行截断
True or 'longest_first'，保留由max_length指定的长度，或者当max_length没有指定时，截取保留模型最大能接受的长度，对于sentence pair，截取长度最大的句子
False or 'do_not_truncate (default) 不截取
only_first，截取到max_length, 但是只截取sentence pair中的第一个句子
'only_second'，同理，只截取pair中第二个句子
max_length，句子最大长度，和padding及truncation相关

合理动态padding问题

注意：因为需要添加句子头和尾

['[CLS]', '我', '爱', '北', '京', '天', '[SEP]']

[101, 2769, 4263, 1266,  776, 1921,  102]
所以如果最大长度max_length，句子最大长度 设置为7的话，  注意5个位置来存实际的内容。

当max_length=10时候，填充为

{'input_ids': tensor([[ 101, 2769, 4263, 1266, 776, 1921, 2128, 7305, 102, 0],
[ 101, 2408, 1767, 1391, 4156, 7883, 102, 0, 0, 0]])，在标志位后面添加000

本质：输出为输入model的长度词列表。

最大长度max_length即输入model的最大长度。

examples = [["我爱北京天安门", "广场吃炸鸡"],["苏德战争","俄罗"]]
res = bert_tokenizer(examples,
                padding="max_length",
                truncation=True,
                max_length=10,
                return_tensors="pt",
                return_length=True)
print(res)

{'input_ids': tensor([[ 101, 2769, 4263, 1266,  776,  102, 2408, 1767, 1391,  102],
        [ 101, 5722, 2548, 2773,  751,  102,  915, 5384,  102,    0]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 1, 1, 1, 1],
        [0, 0, 0, 0, 0, 0, 1, 1, 1, 0]]), 'length': tensor([10,  9]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 1, 1, 1, 1, 0]])}

View Code

标签：NLP,transformer,tokenizer,bert,max,ids,length,词库,print
From： https://www.cnblogs.com/lx63blog/p/17174517.html

从NLP视角看电视剧《狂飙》，会有什么发现？
目录1、背景2、数据获取3、文本分析与可视化3.1短评数据预处理3.2词云图可视化3.3top关键词共现矩阵网络3.4《狂飙》演职员图谱构建4、短评相关数据分析与可视化5、总......
R语言自然语言处理NLP:情感分析上市公司文本信息知识发现可视化
全文链接：http://tecdat.cn/?p=31702原文出处：拓端数据部落公众号情感分析，就是根据一段文本，分析其表达情感的技术。比较简单的情感分析，能够辨别文本内容是积极的还是消极的......
Java分词器比较（ansj、hanlp、ik）
Java分词器比较（ansj、hanlp、ik）一、分词工具ansj、hanlp、ik二、优缺点1.ansj优点:提供多种分词方式可直接根据内部词库分出人名、机构等信息可构造多......
【NLP】最大概率法（负对数相加）
自然语言处理中最大概率法教材算法实现把概率的相乘转为负对数的相加。词典的txt：https://pan.baidu.com/s/1ARx3-fetzOmrw2c8mVAK8w提取码：hts4importmathdefloa......
【五期杨志】CCF-A（CVPR'20） End-to-End Object Detection with Transformers
Carion,Nicolas,etal."End-to-endobjectdetectionwithtransformers."Europeanconferenceoncomputervision.Springer,Cham,2020. 针对传统目标检测......
CPU推理｜使用英特尔 Sapphire Rapids 加速 PyTorch Transformers
在最近的一篇文章中，我们介绍了代号为SapphireRapids的第四代英特尔至强CPU及其新的先进矩阵扩展(AMX)指令集。通过使用AmazonEC2上的SapphireRapids服务器......
经典论文阅读笔记——VIT、Swin Transformer、MAE、CILP
以下（以上）内容来自(参考): https://blog.csdn.net/gailj/article/details/123664828 经典论文——VIT、SwinTransformer、MAE、CILP 针对视觉Transformer方面的工......
NLP预训练模型 | 按时间线整理10种常见的预训练模型
https://zhuanlan.zhihu.com/p/210077100 最近在学习NLP常见的预训练模型，做一下整理和对比，按照时间线主要有：ELMO2018.3华盛顿大学论文 / 代码GPT2018.06Open......
推荐系统[一]：超详细知识介绍，一份完整的入门指南，解答推荐系统相关算法流程、衡量指标和
1.推荐算法的初步理解如果说互联网的目标就是连接一切，那么推荐系统的作用就是建立更加有效率的连接，推荐系统可以更有效率的连接用户与内容和服务，节约了大量的时间和成本......
Transformer 模型 1
Transformer模型1 https://towardsdatascience.com/illustrated-guide-to-transformer-cf6969ffa067https://towardsdatascience.com/illustrated-guide-to-transfor......

NLP-transformer-分词库用法

NLP-transformer-分词库用法

相关文章

赞助商

阅读排行