解决ValueError: Tokenizer class LLaMATokenizer does not exist or is not currently imported

时间：2023-08-10 10:06:46浏览次数：42

标签：LLaMATokenizer Tokenizer tokenizer currently exist transformers class

LLaMA大模型是元宇宙平台公司（Meta）研发的大语言模型。

解决ValueError: Tokenizer class LLaMATokenizer does not exist or is not currently imported_LLaMA

问题：

load LLaMA 7b的weights的时候报错：

ValueError: Tokenizer class LLaMATokenizer does not exist or is not currently imported.

出现原因：

新版transformers里面llama的tokenizer命名为LlamaTokenizer

但是旧的模型里面的tokenizer叫LLaMATokenizer

解决方案：

1、改动transformers源码中三个位置：

utils/dummy_sentencepiece_objects.py

models/auto/tokenization_aotu.py

__init__.py

在这三个文件中找到LlamaTokenizer, 改为LLaMATokenizier

2、第1种方法需要改动的地方比较多，很可能改不全，导致依旧出现“ValueError: Tokenizer class LLaMATokenizer does not exist or is not currently imported.”，另外一种简单的办法就是，找到llama-7b的模型，改动tokenizer_config.json文件，直接把"tokenizer_class": "LLaMATokenizer" 改为 "tokenizer_class": "LlamaTokenizer".

参考：

https://github.com/huggingface/transformers/issues/22222

标签：LLaMATokenizer,Tokenizer,tokenizer,currently,exist,transformers,class
From： https://blog.51cto.com/u_15408171/7031017

HuggingFace | 各种tokenizer有啥区别
在HuggingFace中，有多种不同的tokenizer实现可供选择，每种实现都有其独特的优缺点和用途。BertTokenizer：适用于BERT模型，支持WordPiece分词和Byte-PairEncoding（BPE）分词算法。它还支持对输入序列进行截断和填充，以适应模型的输入要求。RobertaTokenizer：适用于RoBERTa模......
解决ValueError: Tokenizer class LLaMATokenizer does not exist or is not currentl
##问题：loadLLaMA7b的weights的时候报错：ValueError:TokenizerclassLLaMATokenizerdoesnotexistorisnotcurrentlyimported.##出现原因：新版transformers里面llama的tokenizer命名为LlamaTokenizer但是旧的模型里面的tokenizer叫LLaMATokenizer##解决方案：改动t......
redis集群报错：MISCONF Redis is configured to save RDB snapshots, but it is curren
之前在x86架构的服务器部署redis集群，未遇到题中问题；然而在ARM架构的服务器部署redis集群，第一次遇到如此问题。虽然问题已经解决，但不清楚问题的具体原因，在此做个记录。性能测试过程中，通过pinpoint捕捉到如下报错：MISCONFRedisisconfiguredtosaveRDBsnapshots,butitis......
Tips: How to Get the Currently Selected HTML Content in Major Browsers
functiongetSelectionHtml(){constsel=window.getSelection();if(sel.rangeCount){varcontainer=document.createElement("div");for(vari=0,len=sel.rangeCount;i<len;++i){container.appendCh......
彻底理解GPT tokenizers
彻底理解GPTtokenizers你可能已经听说过GPT这个词，它是一种人工智能模型，可以生成各种各样的文本，比如小说、诗歌、对话、新闻等等。GPT的全称是GenerativePre-trainedTransformer，意思是生成式预训练变换器。生成式表示它可以根据一些输入（比如一个单词或一句话）来创造新的内容，预训......
Java 实践（Netbeans开发）——StringTokenizer实现数组分割
引：StringTokenizer存在于java.util. StringTokenizer包中，是一个用来分隔String的应用类，相当于VB的split函数。1.构造函数publicStringTokenizer(Stringstr)publicStringTokenizer(Stringstr,Stringdelim)publicStringTokenizer(Stringstr,Stringdelim,boolean......
yum安装软件提示Another app is currently holding the yum lock
关闭yum进程ps-ef|grepyum......
StringTokenizer 分隔符
Java中我们可以使用StringTokennizer设置不同分隔符来分隔字符串，默认的分隔符是：空格、制表符（\t）、换行符(\n）、回车符（\r）。以下实例演示了StringTokennizer使用空格和等号来分隔字符串：importjava.util.StringTokenizer;publicclassImoocStudent{publicstaticvoi......
kettle 连接oracle 12c以上数据库报错 ORA-12505, TNS:listener does not currently k
在通过kettle连接oracle数据库时报错，但通过plsql是能正常连接的，ORA-12505,TNS:listenerdoesnotcurrentlyknowofSIDgiveninconnectdescriptororg.pentaho.di.core.exception.KettleDatabaseException:来看oracle数据库版本select*fromv$version;连接oracle12c以......
hugging face之Tokenizers
Tokenizers是HuggingFace开发的一个高效的文本分词库，用于将自然语言文本分割成单个的标记（tokens），以便用于自然语言处理任务中，如文本分类、命名实体识别、机器翻译等。Tokenizers支持多种语言，并提供了多种分词器的实现，包括Byte-PairEncoding(BPE)、WordPiece和Unigram。用户可以......

解决ValueError: Tokenizer class LLaMATokenizer does not exist or is not currently imported

问题：

出现原因：

解决方案：

参考：

相关文章

赞助商

阅读排行