pip 手动安装 jieba包 | [babyllama2-chinese]

时间：2023-10-11 14:23:09浏览次数：51

标签：jieba babyllama2 chinese conda pip 安装

在复现 babyllama2-chinese 项目时，jieba 无论是用 pip 还是 conda 进行安装都会报错，遂尝试手动安装，步骤如下：

先参考一篇博客

以及我自己的博客:conda、pip从本地安装包

我直接进入pip官网： https://pypi.org

搜索jieba包

这里需要注意，如果需要下载历史版本，请点击 Release history 里进行寻找

我直接下载最新版，点击 Download history

下载之后放入到【babyllama2】项目文件夹：
（实测发现在哪里安装都是一样的，为了图方便，我直接放到项目文件夹里，下次好用）

然后解压
tar -xvf jieba-0.42.1.tar.gz.

进入该文件夹，会发现有个 setup.py 文件

在安装之前，先确认自己是否进入相应的虚拟环境，否则会装了之后找不到

进行安装
python setup.py install

检验
pip list 和conda list中有一个有 jieba 即可

标签：jieba,babyllama2,chinese,conda,pip,安装
From： https://www.cnblogs.com/lycnight/p/17756985.html

LLM实践-在Colab上使用免费T4 GPU进行Chinese-Llama-2-7b-4bit推理
一、配置环境1、打开colab，创建一个空白notebook，在[修改运行时环境]中选择15GB显存的T4GPU.2、pip安装依赖python包!pipinstall--upgradeaccelerate!pipinstallbitsandbytestransformers_stream_generator!pipinstalltransformers!pipinstallsentencepiece!pip......
Llama2-Chinese项目：3.2-LoRA微调和模型量化
提供LoRA微调和全量参数微调代码，训练数据为data/train_sft.csv，验证数据为data/dev_sft.csv，数据格式为"<s>Human:"+问题+"\n</s><s>Assistant:"+答案。本文主要介绍Llama-2-7b模型LoRA微调以及4bit量化的实践过程。1.LoRA微调脚本 LoRA微调脚本train/sft/finetune_lora......
Llama2-Chinese项目：2.3-预训练使用QA还是Text数据集？
Llama2-Chinese项目给出pretrain的data为QA数据格式，可能会有疑问pretrain不应该是Text数据格式吗？而在Chinese-LLaMA-Alpaca-2和open-llama2预训练使用的LoRA技术，给出pretrain的data为Text数据格式。所以推测应该pretrain时QA和Text数据格式都应该支持。然后马上就会有一个疑问......
Llama2-Chinese项目：3.1-全量参数微调
提供LoRA微调和全量参数微调代码，训练数据为data/train_sft.csv，验证数据为data/dev_sft.csv，数据格式如下所示："<s>Human: "+问题+"\n</s><s>Assistant: "+答案举个例子，如下所示：<s>Human: 用一句话描述地球为什么是独一无二的。</s><s>Assistant: 因为地球是目前为止......
Llama2-Chinese项目：2.1-Atom-7B预训练
虽然Llama2的预训练数据相对于第一代LLaMA扩大了一倍，但是中文预训练数据的比例依然非常少，仅占0.13%，这也导致了原始Llama2的中文能力较弱。为了能够提升模型的中文能力，可以采用微调和预训练两种路径，其中：微调需要的算力资源少，能够快速实现一个中文Llama的雏形。但缺点也显而易见，只......
Llama2-Chinese项目：1-项目介绍和模型推理
Atom-7B与Llama2间的关系：Atom-7B是基于Llama2进行中文预训练的开源大模型。为什么叫原子呢？因为原子生万物，Llama中文社区希望原子大模型未来可以成为构建AI世界的基础单位。目前社区发布了6个模型，如下所示：FlagAlpha/Atom-7BFlagAlpha/Llama2-Chinese-7b-ChatFlagAlpha/Llama2-Ch......
Llama2-Chinese项目：2.2-大语言模型词表扩充
因为原生LLaMA对中文的支持很弱，一个中文汉子往往被切分成多个token，因此需要对其进行中文词表扩展。思路通常是在中文语料库上训练一个中文tokenizer模型，然后将中文tokenizer与LLaMA原生tokenizer进行合并，最终得到一个扩展后的tokenizer模型。国内Chinese-LLaMA-Alpaca开源项目详细......
Llama2-Chinese项目：2.3-预训练使用QA还是Text数据集？
Llama2-Chinese项目给出pretrain的data为QA数据格式，可能会有疑问pretrain不应该是Text数据格式吗？而在Chinese-LLaMA-Alpaca-2和open-llama2预训练使用的LoRA技术，给出pretrain的data为Text数据格式。所以推测应该pretrain时QA和Text数据格式都应该支持。然后马上就会有一个疑问......
Llama2-Chinese项目：2.1-Atom-7B预训练
虽然Llama2的预训练数据相对于第一代LLaMA扩大了一倍，但是中文预训练数据的比例依然非常少，仅占0.13%，这也导致了原始Llama2的中文能力较弱。为了能够提升模型的中文能力，可以采用微调和预训练两种路径，其中：微调需要的算力资源少，能够快速实现一个中文Llama的雏形。但缺点也显而易......
Llama2-Chinese项目：2.2-大语言模型词表扩充
因为原生LLaMA对中文的支持很弱，一个中文汉子往往被切分成多个token，因此需要对其进行中文词表扩展。思路通常是在中文语料库上训练一个中文tokenizer模型，然后将中文tokenizer与LLaMA原生tokenizer进行合并，最终得到一个扩展后的tokenizer模型。国内Chinese-LLaMA-Alpaca开源项目......

pip 手动安装 jieba包 | [babyllama2-chinese]

相关文章

赞助商

阅读排行