首页 > 其他分享 >transformers

transformers

时间:2023-06-16 10:13:15浏览次数:38  
标签:transformers tokenizer sentence 7592 ids input 1012

sentence = "Hello, my son is cuting."
input_ids_method1 = torch.tensor(tokenizer.encode(sentence, add_special_tokens=True)) # Batch size 1   //一次性进行分词和id映射
# tensor([ 101, 7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012, 102])

input_token2 = tokenizer.tokenize(sentence)  //进行word piece分词
# ['hello', ',', 'my', 'son', 'is', 'cut', '##ing', '.']


input_ids_method2 = tokenizer.convert_tokens_to_ids(input_token2)  // 将分词转为分词对应的ids
# tensor([7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012])
# 并没有开头和结尾的标记:[cls]、[sep]

(当tokenizer.encode函数中的add_special_tokens设置为False时,同样不会出现开头和结尾标记:[cls], [sep]。)

 

print(tokenizer.encode_plus(sentence)) // encode_plus除了输出ids,和type mask三个字典
[101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102]
{'input_ids': [101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}

标签:transformers,tokenizer,sentence,7592,ids,input,1012
From: https://www.cnblogs.com/qiaoqifa/p/17484861.html

相关文章

  • 在Transformers 中使用约束波束搜索引导文本生成
    引言本文假设读者已经熟悉文本生成领域波束搜索相关的背景知识,具体可参见博文如何生成文本:通过Transformers用不同的解码方法生成文本。与普通的波束搜索不同,约束波束搜索允许我们控制所生成的文本。这很有用,因为有时我们确切地知道输出中需要包含什么。例如,在机器翻译任......
  • 【论文阅读】CvT:Introducing Convolutions to Vision Transformers
    ......
  • 编码器 | 基于 Transformers 的编码器-解码器模型
    基于transformer的编码器-解码器模型是表征学习和模型架构这两个领域多年研究成果的结晶。本文简要介绍了神经编码器-解码器模型的历史,更多背景知识,建议读者阅读由SebastionRuder撰写的这篇精彩博文。此外,建议读者对自注意力(self-attention)架构有一个基本了解,可以......
  • Hugging News #0602: Transformers Agents 介绍、大语言模型排行榜发布!
    每一周,我们的同事都会向社区的成员们发布一些关于HuggingFace相关的更新,包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,我们将其称之为「HuggingNews」,本期HuggingNews有哪些有趣的消息,快来看看吧!重磅更新TransformersAgents发布,通过自......
  • transformers入门使用
    transformers入门使用HuggingFace是一个开源社区,它提供了先进的NLP模型,数据集,以及其他工具。模型:https://huggingface.co/models数据集:https://huggingface.co/datasets主要的模型自然回归:GPT2,Trasnformer-XL,XLNet自编码:BERT,ALBERT,ROBERTa,ELECTRASto......
  • 背景 | 基于 Transformers 的编码器-解码器模型
    !pipinstalltransformers==4.2.1!pipinstallsentencepiece==0.1.95Vaswani等人在其名作Attentionisallyouneed中首创了基于transformer的编码器-解码器模型,如今已成为自然语言处理(naturallanguageprocessing,NLP)领域编码器-解码器架构的事实标准。最近基......
  • End-to-End Object Detection with Transformers论文阅读笔记
    摘要作者提出了一种新的基于Transformer的目标检测模型DETR,将检测视为集合预测问题,无需进行nms以及anchorgeneration等操作。同时,对模型进行简单的修改就可以应用到全景分割任务中。方法ObjectdetectionsetpredictionlossDETR给出的是N个预测,N为预先设定的远大于GT目标框......
  • Hugging Face推出Transformers Agents
    来源:GitHubDailyHuggingFace,作为AI开源圈最为知名的「网红」创业公司,成立仅几年,便在GitHub开源了诸多实用开源项目,受到了不少开发者的赞赏。其中影响力最大的,也被很多人称为初代GPT的Transformers,截至今天,GitHubStar累积将近10万。这几年,在HuggingFace平台上面......
  • Transformers回顾 :从BERT到GPT4
    人工智能已成为近年来最受关注的话题之一,由于神经网络的发展,曾经被认为纯粹是科幻小说中的服务现在正在成为现实。从对话代理到媒体内容生成,人工智能正在改变我们与技术互动的方式。特别是机器学习(ML)模型在自然语言处理(NLP)领域取得了重大进展。一个关键的突破是引入了“自......
  • transformers在ctr中的应用
    文章目录1.背景2.相关论文解析2.1《AutoInt:AutomaticFeatureInteractionLearningviaSelf-AttentiveNeuralNetworks》2.1.1论文贡献2.1.2模型结构2.1.2.1输入2.1.2.2注意力机制层2.1.3实验结果2.2《BehaviorSequenceTransformerforE-commerceRecommendationin......