解决ValueError: Tokenizer class LLaMATokenizer does not exist or is not currently imported

时间：2023-07-20 10:13:35浏览次数：37

标签：py transformers Tokenizer ## currently imported exist LLaMATokenizer

## 问题：

load LLaMA 7b的weights的时候报错：

ValueError: Tokenizer class LLaMATokenizer does not exist or is not currently imported.

## 出现原因：

新版transformers里面llama的tokenizer命名为LlamaTokenizer

但是旧的模型里面的tokenizer叫LLaMATokenizer

## 解决方案：

改动transformers源码中三个位置：

utils/dummy_sentencepiece_objects.py

models/auto/tokenization_aotu.py

__init__.py

在这三个文件中找到LlamaTokenizer, 改为LLaMATokenizier

参考：github.com/mbehm/transformers/tree/main/src/transformers

注：找到当前环境库源码，用 print(transformers.__file__)

标签：py,transformers,Tokenizer,##,currently,imported,exist,LLaMATokenizer
From： https://www.cnblogs.com/mnluzimu/p/17567540.html

redis集群报错：MISCONF Redis is configured to save RDB snapshots, but it is curren
之前在x86架构的服务器部署redis集群，未遇到题中问题；然而在ARM架构的服务器部署redis集群，第一次遇到如此问题。虽然问题已经解决，但不清楚问题的具体原因，在此做个记录。性能测试过程中，通过pinpoint捕捉到如下报错：MISCONFRedisisconfiguredtosaveRDBsnapshots,butitis......
Tips: How to Get the Currently Selected HTML Content in Major Browsers
functiongetSelectionHtml(){constsel=window.getSelection();if(sel.rangeCount){varcontainer=document.createElement("div");for(vari=0,len=sel.rangeCount;i<len;++i){container.appendCh......
彻底理解GPT tokenizers
彻底理解GPTtokenizers你可能已经听说过GPT这个词，它是一种人工智能模型，可以生成各种各样的文本，比如小说、诗歌、对话、新闻等等。GPT的全称是GenerativePre-trainedTransformer，意思是生成式预训练变换器。生成式表示它可以根据一些输入（比如一个单词或一句话）来创造新的内容，预训......
Java 实践（Netbeans开发）——StringTokenizer实现数组分割
引：StringTokenizer存在于java.util. StringTokenizer包中，是一个用来分隔String的应用类，相当于VB的split函数。1.构造函数publicStringTokenizer(Stringstr)publicStringTokenizer(Stringstr,Stringdelim)publicStringTokenizer(Stringstr,Stringdelim,boolean......
yum安装软件提示Another app is currently holding the yum lock
关闭yum进程ps-ef|grepyum......
StringTokenizer 分隔符
Java中我们可以使用StringTokennizer设置不同分隔符来分隔字符串，默认的分隔符是：空格、制表符（\t）、换行符(\n）、回车符（\r）。以下实例演示了StringTokennizer使用空格和等号来分隔字符串：importjava.util.StringTokenizer;publicclassImoocStudent{publicstaticvoi......
kettle 连接oracle 12c以上数据库报错 ORA-12505, TNS:listener does not currently k
在通过kettle连接oracle数据库时报错，但通过plsql是能正常连接的，ORA-12505,TNS:listenerdoesnotcurrentlyknowofSIDgiveninconnectdescriptororg.pentaho.di.core.exception.KettleDatabaseException:来看oracle数据库版本select*fromv$version;连接oracle12c以......
hugging face之Tokenizers
Tokenizers是HuggingFace开发的一个高效的文本分词库，用于将自然语言文本分割成单个的标记（tokens），以便用于自然语言处理任务中，如文本分类、命名实体识别、机器翻译等。Tokenizers支持多种语言，并提供了多种分词器的实现，包括Byte-PairEncoding(BPE)、WordPiece和Unigram。用户可以......
ERROR: pip's dependency resolver does not currently take into account all the pa
报错原因：ERROR:pip'sdependencyresolverdoesnotcurrentlytakeintoaccountallthepackagesthatareinstalled.Thisbehaviouristhesourceofthefollowingdependencyconflicts.scipy1.7.3requiresnumpy<1.23.0,>=1.16.5,butyouhavenumpy......
NLP 中 Embedding（词嵌入）和 Tokenizer（分词器）分别是什么？
NLP中Embedding（词嵌入）和Tokenizer（分词器）分别是什么？Embedding（词嵌入）和Tokenizer（分词器）是在自然语言处理中常用的两种技术，用于将文本转换为计算机可以处理的数字表示。Tokenizer（分词器）是将文本转换为单词或子词序列的过程。在自然语言处理中，文本通常是由一系列单词或子词组......

解决ValueError: Tokenizer class LLaMATokenizer does not exist or is not currently imported

相关文章

赞助商

阅读排行