首页 > 其他分享 >pip 手动安装 jieba包 | [babyllama2-chinese]

pip 手动安装 jieba包 | [babyllama2-chinese]

时间:2023-10-11 14:23:09浏览次数:48  
标签:jieba babyllama2 chinese conda pip 安装

在复现 babyllama2-chinese 项目时,jieba 无论是用 pip 还是 conda 进行安装都会报错,遂尝试手动安装,步骤如下:

先参考一篇博客
image
以及我自己的博客:conda、pip从本地安装包
image

我直接进入pip官网: https://pypi.org
image

搜索jieba
image

这里需要注意,如果需要下载历史版本,请点击 Release history 里进行寻找

我直接下载最新版,点击 Download history
image

下载之后放入到【babyllama2】项目文件夹:
(实测发现在哪里安装都是一样的,为了图方便,我直接放到项目文件夹里,下次好用)
image

然后解压
tar -xvf jieba-0.42.1.tar.gz.
image

进入该文件夹,会发现有个 setup.py 文件
image

在安装之前,先确认自己是否进入相应的虚拟环境,否则会装了之后找不到
image

进行安装
python setup.py install

检验
pip list 和conda list中 有一个有 jieba 即可
image
image

标签:jieba,babyllama2,chinese,conda,pip,安装
From: https://www.cnblogs.com/lycnight/p/17756985.html

相关文章

  • LLM实践-在Colab上使用免费T4 GPU进行Chinese-Llama-2-7b-4bit推理
    一、配置环境1、打开colab,创建一个空白notebook,在[修改运行时环境]中选择15GB显存的T4GPU.2、pip安装依赖python包!pipinstall--upgradeaccelerate!pipinstallbitsandbytestransformers_stream_generator!pipinstalltransformers!pipinstallsentencepiece!pip......
  • Llama2-Chinese项目:3.2-LoRA微调和模型量化
      提供LoRA微调和全量参数微调代码,训练数据为data/train_sft.csv,验证数据为data/dev_sft.csv,数据格式为"<s>Human:"+问题+"\n</s><s>Assistant:"+答案。本文主要介绍Llama-2-7b模型LoRA微调以及4bit量化的实践过程。1.LoRA微调脚本  LoRA微调脚本train/sft/finetune_lora......
  • Llama2-Chinese项目:2.3-预训练使用QA还是Text数据集?
      Llama2-Chinese项目给出pretrain的data为QA数据格式,可能会有疑问pretrain不应该是Text数据格式吗?而在Chinese-LLaMA-Alpaca-2和open-llama2预训练使用的LoRA技术,给出pretrain的data为Text数据格式。所以推测应该pretrain时QA和Text数据格式都应该支持。然后马上就会有一个疑问......
  • Llama2-Chinese项目:3.1-全量参数微调
      提供LoRA微调和全量参数微调代码,训练数据为data/train_sft.csv,验证数据为data/dev_sft.csv,数据格式如下所示:"<s>Human: "+问题+"\n</s><s>Assistant: "+答案  举个例子,如下所示:<s>Human: 用一句话描述地球为什么是独一无二的。</s><s>Assistant: 因为地球是目前为止......
  • Llama2-Chinese项目:2.1-Atom-7B预训练
    虽然Llama2的预训练数据相对于第一代LLaMA扩大了一倍,但是中文预训练数据的比例依然非常少,仅占0.13%,这也导致了原始Llama2的中文能力较弱。为了能够提升模型的中文能力,可以采用微调和预训练两种路径,其中:微调需要的算力资源少,能够快速实现一个中文Llama的雏形。但缺点也显而易见,只......
  • Llama2-Chinese项目:1-项目介绍和模型推理
    Atom-7B与Llama2间的关系:Atom-7B是基于Llama2进行中文预训练的开源大模型。为什么叫原子呢?因为原子生万物,Llama中文社区希望原子大模型未来可以成为构建AI世界的基础单位。目前社区发布了6个模型,如下所示:FlagAlpha/Atom-7BFlagAlpha/Llama2-Chinese-7b-ChatFlagAlpha/Llama2-Ch......
  • Llama2-Chinese项目:2.2-大语言模型词表扩充
    因为原生LLaMA对中文的支持很弱,一个中文汉子往往被切分成多个token,因此需要对其进行中文词表扩展。思路通常是在中文语料库上训练一个中文tokenizer模型,然后将中文tokenizer与LLaMA原生tokenizer进行合并,最终得到一个扩展后的tokenizer模型。国内Chinese-LLaMA-Alpaca开源项目详细......
  • Llama2-Chinese项目:2.3-预训练使用QA还是Text数据集?
      Llama2-Chinese项目给出pretrain的data为QA数据格式,可能会有疑问pretrain不应该是Text数据格式吗?而在Chinese-LLaMA-Alpaca-2和open-llama2预训练使用的LoRA技术,给出pretrain的data为Text数据格式。所以推测应该pretrain时QA和Text数据格式都应该支持。然后马上就会有一个疑问......
  • Llama2-Chinese项目:2.1-Atom-7B预训练
      虽然Llama2的预训练数据相对于第一代LLaMA扩大了一倍,但是中文预训练数据的比例依然非常少,仅占0.13%,这也导致了原始Llama2的中文能力较弱。为了能够提升模型的中文能力,可以采用微调和预训练两种路径,其中:微调需要的算力资源少,能够快速实现一个中文Llama的雏形。但缺点也显而易......
  • Llama2-Chinese项目:2.2-大语言模型词表扩充
      因为原生LLaMA对中文的支持很弱,一个中文汉子往往被切分成多个token,因此需要对其进行中文词表扩展。思路通常是在中文语料库上训练一个中文tokenizer模型,然后将中文tokenizer与LLaMA原生tokenizer进行合并,最终得到一个扩展后的tokenizer模型。国内Chinese-LLaMA-Alpaca开源项目......