首页 > 其他分享 >解决ValueError: Tokenizer class LLaMATokenizer does not exist or is not currently imported

解决ValueError: Tokenizer class LLaMATokenizer does not exist or is not currently imported

时间:2023-08-10 10:06:46浏览次数:39  
标签:LLaMATokenizer Tokenizer tokenizer currently exist transformers class

LLaMA大模型是元宇宙平台公司(Meta)研发的大语言模型。

解决ValueError: Tokenizer class LLaMATokenizer does not exist or is not currently imported_LLaMA

问题:

load LLaMA 7b的weights的时候报错:

ValueError: Tokenizer class LLaMATokenizer does not exist or is not currently imported.

出现原因:

新版transformers里面llama的tokenizer命名为LlamaTokenizer

但是旧的模型里面的tokenizer叫LLaMATokenizer

解决方案:

1、改动transformers源码中三个位置:

utils/dummy_sentencepiece_objects.py

models/auto/tokenization_aotu.py

__init__.py

在这三个文件中找到LlamaTokenizer, 改为LLaMATokenizier

2、第1种方法需要改动的地方比较多,很可能改不全,导致依旧出现“ValueError: Tokenizer class LLaMATokenizer does not exist or is not currently imported.”,另外一种简单的办法就是,找到llama-7b的模型,改动tokenizer_config.json文件,直接把"tokenizer_class": "LLaMATokenizer" 改为 "tokenizer_class": "LlamaTokenizer".

参考:

https://github.com/huggingface/transformers/issues/22222


标签:LLaMATokenizer,Tokenizer,tokenizer,currently,exist,transformers,class
From: https://blog.51cto.com/u_15408171/7031017

相关文章

  • HuggingFace | 各种tokenizer有啥区别
    在HuggingFace中,有多种不同的tokenizer实现可供选择,每种实现都有其独特的优缺点和用途。BertTokenizer:适用于BERT模型,支持WordPiece分词和Byte-PairEncoding(BPE)分词算法。它还支持对输入序列进行截断和填充,以适应模型的输入要求。RobertaTokenizer:适用于RoBERTa模......
  • 解决ValueError: Tokenizer class LLaMATokenizer does not exist or is not currentl
    ##问题:loadLLaMA7b的weights的时候报错:ValueError:TokenizerclassLLaMATokenizerdoesnotexistorisnotcurrentlyimported.##出现原因:新版transformers里面llama的tokenizer命名为LlamaTokenizer但是旧的模型里面的tokenizer叫LLaMATokenizer##解决方案:改动t......
  • redis集群报错:MISCONF Redis is configured to save RDB snapshots, but it is curren
    之前在x86架构的服务器部署redis集群,未遇到题中问题;然而在ARM架构的服务器部署redis集群,第一次遇到如此问题。虽然问题已经解决,但不清楚问题的具体原因,在此做个记录。性能测试过程中,通过pinpoint捕捉到如下报错:MISCONFRedisisconfiguredtosaveRDBsnapshots,butitis......
  • Tips: How to Get the Currently Selected HTML Content in Major Browsers
    functiongetSelectionHtml(){constsel=window.getSelection();if(sel.rangeCount){varcontainer=document.createElement("div");for(vari=0,len=sel.rangeCount;i<len;++i){container.appendCh......
  • 彻底理解GPT tokenizers
    彻底理解GPTtokenizers你可能已经听说过GPT这个词,它是一种人工智能模型,可以生成各种各样的文本,比如小说、诗歌、对话、新闻等等。GPT的全称是GenerativePre-trainedTransformer,意思是生成式预训练变换器。生成式表示它可以根据一些输入(比如一个单词或一句话)来创造新的内容,预训......
  • Java 实践(Netbeans开发)——StringTokenizer实现数组分割
     引:StringTokenizer存在于java.util. StringTokenizer包中,是一个用来分隔String的应用类,相当于VB的split函数。1.构造函数publicStringTokenizer(Stringstr)publicStringTokenizer(Stringstr,Stringdelim)publicStringTokenizer(Stringstr,Stringdelim,boolean......
  • yum安装软件提示Another app is currently holding the yum lock
    关闭yum进程ps-ef|grepyum......
  • StringTokenizer 分隔符
    Java中我们可以使用StringTokennizer设置不同分隔符来分隔字符串,默认的分隔符是:空格、制表符(\t)、换行符(\n)、回车符(\r)。以下实例演示了StringTokennizer使用空格和等号来分隔字符串:importjava.util.StringTokenizer;publicclassImoocStudent{publicstaticvoi......
  • kettle 连接oracle 12c以上数据库报错 ORA-12505, TNS:listener does not currently k
    在通过kettle连接oracle数据库时报错,但通过plsql是能正常连接的,ORA-12505,TNS:listenerdoesnotcurrentlyknowofSIDgiveninconnectdescriptororg.pentaho.di.core.exception.KettleDatabaseException:来看oracle数据库版本select*fromv$version;连接oracle12c以......
  • hugging face之Tokenizers
    Tokenizers是HuggingFace开发的一个高效的文本分词库,用于将自然语言文本分割成单个的标记(tokens),以便用于自然语言处理任务中,如文本分类、命名实体识别、机器翻译等。Tokenizers支持多种语言,并提供了多种分词器的实现,包括Byte-PairEncoding(BPE)、WordPiece和Unigram。用户可以......