首页 > 其他分享 >解决ValueError: Tokenizer class LLaMATokenizer does not exist or is not currently imported

解决ValueError: Tokenizer class LLaMATokenizer does not exist or is not currently imported

时间:2023-07-20 10:13:35浏览次数:37  
标签:py transformers Tokenizer ## currently imported exist LLaMATokenizer

## 问题:

load LLaMA 7b的weights的时候报错:

ValueError: Tokenizer class LLaMATokenizer does not exist or is not currently imported.

## 出现原因:

新版transformers里面llama的tokenizer命名为LlamaTokenizer

但是旧的模型里面的tokenizer叫LLaMATokenizer

## 解决方案:

改动transformers源码中三个位置:

utils/dummy_sentencepiece_objects.py

models/auto/tokenization_aotu.py

__init__.py

在这三个文件中找到LlamaTokenizer, 改为LLaMATokenizier

参考:github.com/mbehm/transformers/tree/main/src/transformers

注:找到当前环境库源码,用 print(transformers.__file__)

 

标签:py,transformers,Tokenizer,##,currently,imported,exist,LLaMATokenizer
From: https://www.cnblogs.com/mnluzimu/p/17567540.html

相关文章

  • redis集群报错:MISCONF Redis is configured to save RDB snapshots, but it is curren
    之前在x86架构的服务器部署redis集群,未遇到题中问题;然而在ARM架构的服务器部署redis集群,第一次遇到如此问题。虽然问题已经解决,但不清楚问题的具体原因,在此做个记录。性能测试过程中,通过pinpoint捕捉到如下报错:MISCONFRedisisconfiguredtosaveRDBsnapshots,butitis......
  • Tips: How to Get the Currently Selected HTML Content in Major Browsers
    functiongetSelectionHtml(){constsel=window.getSelection();if(sel.rangeCount){varcontainer=document.createElement("div");for(vari=0,len=sel.rangeCount;i<len;++i){container.appendCh......
  • 彻底理解GPT tokenizers
    彻底理解GPTtokenizers你可能已经听说过GPT这个词,它是一种人工智能模型,可以生成各种各样的文本,比如小说、诗歌、对话、新闻等等。GPT的全称是GenerativePre-trainedTransformer,意思是生成式预训练变换器。生成式表示它可以根据一些输入(比如一个单词或一句话)来创造新的内容,预训......
  • Java 实践(Netbeans开发)——StringTokenizer实现数组分割
     引:StringTokenizer存在于java.util. StringTokenizer包中,是一个用来分隔String的应用类,相当于VB的split函数。1.构造函数publicStringTokenizer(Stringstr)publicStringTokenizer(Stringstr,Stringdelim)publicStringTokenizer(Stringstr,Stringdelim,boolean......
  • yum安装软件提示Another app is currently holding the yum lock
    关闭yum进程ps-ef|grepyum......
  • StringTokenizer 分隔符
    Java中我们可以使用StringTokennizer设置不同分隔符来分隔字符串,默认的分隔符是:空格、制表符(\t)、换行符(\n)、回车符(\r)。以下实例演示了StringTokennizer使用空格和等号来分隔字符串:importjava.util.StringTokenizer;publicclassImoocStudent{publicstaticvoi......
  • kettle 连接oracle 12c以上数据库报错 ORA-12505, TNS:listener does not currently k
    在通过kettle连接oracle数据库时报错,但通过plsql是能正常连接的,ORA-12505,TNS:listenerdoesnotcurrentlyknowofSIDgiveninconnectdescriptororg.pentaho.di.core.exception.KettleDatabaseException:来看oracle数据库版本select*fromv$version;连接oracle12c以......
  • hugging face之Tokenizers
    Tokenizers是HuggingFace开发的一个高效的文本分词库,用于将自然语言文本分割成单个的标记(tokens),以便用于自然语言处理任务中,如文本分类、命名实体识别、机器翻译等。Tokenizers支持多种语言,并提供了多种分词器的实现,包括Byte-PairEncoding(BPE)、WordPiece和Unigram。用户可以......
  • ERROR: pip's dependency resolver does not currently take into account all the pa
    报错原因:ERROR:pip'sdependencyresolverdoesnotcurrentlytakeintoaccountallthepackagesthatareinstalled.Thisbehaviouristhesourceofthefollowingdependencyconflicts.scipy1.7.3requiresnumpy<1.23.0,>=1.16.5,butyouhavenumpy......
  • NLP 中 Embedding(词嵌入) 和 Tokenizer(分词器) 分别是什么?
    NLP中Embedding(词嵌入)和Tokenizer(分词器)分别是什么?Embedding(词嵌入)和Tokenizer(分词器)是在自然语言处理中常用的两种技术,用于将文本转换为计算机可以处理的数字表示。Tokenizer(分词器)是将文本转换为单词或子词序列的过程。在自然语言处理中,文本通常是由一系列单词或子词组......