Pytorch——AutoTokenizer载入本地tokenizer权重

时间：2024-03-15 15:46:35浏览次数：33

标签：AutoTokenizer tokenizer json huggingface 载入 Pytorch config

　　由于众所周知的原因，国内很难使用huggingface去下载权重，但现在的大模型的权重以及相关的分词器配置都放在huggingface的仓库中。当我们使用 AutoTokenizer.from_pretrained 去载入相关分词器和模型时，会访问huggingface自动下载模型。但随着大模型的发布，很多模型的tokenizer都以tokenizer.model的方式保存，并且使用自己的.py文件去加载自定义的tokenizer类。因此tokenizer_config.json（tokenizer配置类）变得至关重要。下面就是我遇到的使用AutoTokenizer载入本地tokenizer时的坑。

　　场景：我使用ChatGLM这个大语言模型，于是从huggingface镜像网站中（HF-Mirror - Huggingface 镜像站）下载了其对应的模型参数以及tokenizer。使用以下命令行 a = AutoTokenizer.from_pretrained(r"D:\git_project\chatglm", trust_remote_code=True) 载入模型的tokenizer时，表示无法从本地载入（确定本地存在tokenizer的相关文件），并且每次都去请求huggingface的官网去下载这个模型（但由于屏蔽，导致了请求失败），因此无法使用，遂追寻AutoTokenizer.from_pretrained的源码寻求原因。

　　以下是文件D:\git_project\chatglm文件夹中的内容：

　　直接说结论：AutoTokenizer.from_pretraine中传入的本地文件路径，一定要和tokenizer_config.json中的以下配置对应：

　　解释：通过追踪源码（省略版），我们发现AutoTokenizer只会从传入的路径（我们传入的是D:\git_project\chatglm）去找到tokenizer_config.json文件，当找到之后，所有的加载内容都以tokenizer_config.json中内容为准，这里的“auto_map”就是告诉加载器要去哪里找对应的tokenizer类，前半段的路径标记的就是去哪里找.py文件，使用--分割后面的就是指的对应的python文件中的Tokenizer类（上图就是会去D:\git_project\chatglm这个路径中去找，tokenization_chatglm.py这个文件，并加载这个.py文件中的ChatGLMTokenizer对象）。

注意事项（坑）：

1、并不是所有的tokenizer载入都会使用自定义的方式（通过一个.py文件去得到自定义的Tokenizer对象），更多的时候是直接一个tokenizer.json或者vocab.txt即可，因此他们的tokenizer_config.json中都没有这个“auto_map”参数，更多的是tokenizer_class去指定让AutoTokenizer使用已经配置好的Tokenizer。

2、transformers中已经集成了非常多的Tokenizer类，而AutoTokenizer在载入时会根据tokenizer_config.json中的“tokenizer_class”去找是否已经存在了内置的Tokernizer对象，比如上面例子中我们“tokenizer_class”参数是“ChatGLMTokenizer”，因此在载入时会先在使用tokenizer_class_from_name方法去TOKENIZER_MAPPING_NAMES常量中寻找是否已经有内置的Tokernizer类，如果有则初始化，如果没有，就会使用“auto_map”这个参数去找到底应该拿什么类。（很明显transformers中并没有集成ChatGLMTokenizer，并且auto_map也没有找到对应的路径，因此他会去一直请求huggingface去仓库中下载模型）

3、一般使用自定义的tokenizer类都会使用sentencepiece这个包，但是这个包加载tokenizer.model时不支持中文地址！！！！

标签：AutoTokenizer,tokenizer,json,huggingface,载入,Pytorch,config
From： https://www.cnblogs.com/CircleWang/p/18075540

PyTorch学习笔记（七）
5.基本数学运算5.1torch.add()函数torch.add()是PyTorch中的一个函数，用于执行逐元素的加法操作。这个函数可以接受多个张量（tensors）作为输入，并返回一个新的张量，其中每个元素都是输入张量对应元素之和。函数的基本语法如下：torch.add(input,alpha=1,other,out=None......
机器学习 - PyTorch中使用到的名字解释
Tensor(张量):Tensor是一个类似于NumPy数组的多维数组结构，可以在CPU或GPU上进行并行计算。Tensor是PyTorch中最基本的数据结构。Tensorrepresentsdatainanumericalway.它具有以下几个重要的特点和用途：多维数组：Tensor可以是任意维度的数组，可以是0维(标量)，1维(......
Pytorch入门-Transforms
目录ComposeToTensorNormalizeResize在PyTorch中，transforms是一个用于图像预处理和数据增强的模块，通常与torchvision库一起使用。torchvision提供了大量预先定义的transforms，它们可以方便地应用于图像数据，以进行预处理或增强。这些transforms对于训练和评估机器学习模型（尤其是深......
【模型转换】PyTorch模型转ONNX模型
我们主要使用torch.onnx.export()函数来实现PyTorch模型到ONNX模型的转换。importtorchimporttorchvision.modelsasmodelsdevice="cpu"#加载预训练的ResNet18模型model=models.resnet18(pretrained=True)model.eval().to(device)#定义输入input=torc......
【图像超分】论文复现：新手入门！Pytorch实现SRCNN，数据预处理、模型训练、测试、评估全流
文章目录前言1.准备数据集和数据预处理1.1数据集选择1.2数据预处理1.3评估指标PSNR和SSIM1.3.1PSNR1.3.2SSIM2.定义网络结构3.设置参数并训练模型3.1参数设置3.2模型训练4.测试训练好的模型5.用训练好的SRCNN模型超分自己的图像数据6.其他补充6.1特征图......
onnx runtime文档学习5-加速Pytorch之Pytorch推理
网上充斥着ONNXRuntime的简单科普，却没有一个系统介绍ONNXRuntime的博客，因此本博客旨在基于官方文档进行翻译与进一步的解释。ONNXruntime的官方文档：https://onnxruntime.ai/docs/如果尚不熟悉ONNX格式，可以参照该博客专栏，本专栏对onnx1.16文档进行翻译与进一步解释，ONNX......
动手学深度学习Pytorch 2.3线性代数-笔记
标量标量——仅包含一个数值，由只有一个元素的张量表示变量——未知的标量值例，将华氏度值转换为摄氏度的计算表达式，其中5、9、32为标量，c和f为变量。实例化两个标量并进行算术运算 importtorch x=torch.tensor(3.0) y=torch.tensor(2.0) print(x+y,x......
深度学习1：PyTorch张量tensor的基本使用
深度学习是一种机器学习方法，同时与人工智能研究的范畴。文章目录1.深度学习的基础网络2.Pytorch的开发环境（PyCharm和PyTorch安装）3.张量基础3.1张量的定义3.2随机生成张量3.3张量的数据类型3.4张量形状3.5张量切片3.6全0全1张量4.张量的数学函数4.1sum()--求......
探索PyTorch：介绍及常用工具包展示
前言PyTorch作为一个强大的开源深度学习框架，近年来在科学计算和人工智能领域备受欢迎。它提供了灵活的张量计算和动态计算图的功能，使得构建和训练深度神经网络变得更加简单和高效。本文将介绍PyTorch的基本概念，并展示一些常用的PyTorch工具包，帮助读者更好地了解和利用PyTorch进......
pytorch_lightning的使用
Reference1.【PyTorchLigntning】快速上手简明指南2.PytorchLightning完全攻略3.PyTorchLightning教程四：超参数的使用4.小风_的CSDN......

Pytorch——AutoTokenizer载入本地tokenizer权重

注意事项（坑）：

相关文章

赞助商

阅读排行