首页 > 系统相关 >手把手教你在Ubuntu上部署中文LLAMA-2大模型

手把手教你在Ubuntu上部署中文LLAMA-2大模型

时间:2023-10-01 17:22:38浏览次数:47  
标签:LLAMA models 手把手 模型 llama Ubuntu cpp q4k python3

 一、前言

  llama2作为目前最优秀的的开源大模型,相较于chatGPT,llama2占用的资源更少,推理过程更快,本文将借助llama.cpp工具在ubuntu(x86\ARM64)平台上搭建纯CPU运行的中文LLAMA2中文模型。

二、准备工作

  1、一个Ubuntu环境(本教程基于Ubuntu20 LTS版操作)

  2、确保你的环境可以连接GitHub

  3、建议至少60GB以上存储空间(用于存放模型文件等)

 4、建议不低于6GB内存(仅限7B_q4k量化模型)

三、开始部署

  1、配置系统

   输入下列命令升级和安装所需依赖

sudo apt update

sudo apt-get install gcc g++ python3 python3-pip

#安装python依赖
python3 -m pip install torch numpy sentencepiece

  

  2、构建llama.cpp

    从GitHub拉取llama.cpp工具,并进行构建

#拉取llama.cpp
git clone https://github.com/ggerganov/llama.cpp.git

#构建llama.cpp
cd llama.cpp/
make -j8

    (注:make -j后的数字为你的设备物理核心数)

  

  3、下载LLAMA2中文模型

    在Chinese-LLaMA-Alpaca-2项目中下载7B/13B的指令模型(apache模型),并将模型文件解压缩放入llama.cpp/models文件夹下

https://github.com/ymcui/Chinese-LLaMA-Alpaca-2#%E6%A8%A1%E5%9E%8B%E4%B8%8B%E8%BD%BD

  

  4、量化部署模型

# 安装 Python dependencies
python3 -m pip install torch numpy sentencepiece

# 生成量化模型
python3 convert.py models/前面放入的模型文件夹名称

#4-bit量化
./quantize ./models/前面放入的模型文件夹名称/ggml-model-f16.gguf ./models/7B_q4k.gguf q4k

  顺利完成上述操作后,models文件夹下会生成一个名为7B_q4k.gguf的模型文件

 

  5、启动模型

    将中文llama2模型项目中的scripts/llama-cpp/chat.sh文件拷贝到llama.cpp目录下,并执行以下指令

chmod +x chat.sh

#使用以下命令启动聊天
./chat.sh models/7B_q4k.gguf '请列举5条文明乘车的建议'

标签:LLAMA,models,手把手,模型,llama,Ubuntu,cpp,q4k,python3
From: https://www.cnblogs.com/umi02/p/17739018.html

相关文章

  • Llama2-Chinese项目:2.3-预训练使用QA还是Text数据集?
      Llama2-Chinese项目给出pretrain的data为QA数据格式,可能会有疑问pretrain不应该是Text数据格式吗?而在Chinese-LLaMA-Alpaca-2和open-llama2预训练使用的LoRA技术,给出pretrain的data为Text数据格式。所以推测应该pretrain时QA和Text数据格式都应该支持。然后马上就会有一个疑问......
  • Llama2-Chinese项目:3.1-全量参数微调
      提供LoRA微调和全量参数微调代码,训练数据为data/train_sft.csv,验证数据为data/dev_sft.csv,数据格式如下所示:"<s>Human: "+问题+"\n</s><s>Assistant: "+答案  举个例子,如下所示:<s>Human: 用一句话描述地球为什么是独一无二的。</s><s>Assistant: 因为地球是目前为止......
  • Llama2-Chinese项目:2.1-Atom-7B预训练
    虽然Llama2的预训练数据相对于第一代LLaMA扩大了一倍,但是中文预训练数据的比例依然非常少,仅占0.13%,这也导致了原始Llama2的中文能力较弱。为了能够提升模型的中文能力,可以采用微调和预训练两种路径,其中:微调需要的算力资源少,能够快速实现一个中文Llama的雏形。但缺点也显而易见,只......
  • Llama2-Chinese项目:1-项目介绍和模型推理
    Atom-7B与Llama2间的关系:Atom-7B是基于Llama2进行中文预训练的开源大模型。为什么叫原子呢?因为原子生万物,Llama中文社区希望原子大模型未来可以成为构建AI世界的基础单位。目前社区发布了6个模型,如下所示:FlagAlpha/Atom-7BFlagAlpha/Llama2-Chinese-7b-ChatFlagAlpha/Llama2-Ch......
  • Llama2-Chinese项目:2.2-大语言模型词表扩充
    因为原生LLaMA对中文的支持很弱,一个中文汉子往往被切分成多个token,因此需要对其进行中文词表扩展。思路通常是在中文语料库上训练一个中文tokenizer模型,然后将中文tokenizer与LLaMA原生tokenizer进行合并,最终得到一个扩展后的tokenizer模型。国内Chinese-LLaMA-Alpaca开源项目详细......
  • Ubuntu 16.04 上安装 OrientDB!
    这两种模型在如何处理(存储)数据的方面存在着巨大的差异。关系数据库管理系统在关系模型中(如MySQL,或者其分支MariaDB),一个数据库是一个表的集合,其中每个表包含一个或多个以列组织的数据分类。数据库的每行包含一个唯一的数据实例,其分类由列定义。举个例子,想象一个包含客户的表。......
  • Ubuntu服务器安全性提升:修改SSH默认端口号
    在Ubuntu服务器上,SSH(SecureShell)是一种至关重要的远程连接工具。它提供了一种安全的方式来远程连接和管理计算机系统,通过加密通信来确保数据的保密性和完整性。SSH协议广泛用于计算机网络中,用于远程管理、文件传输和安全通信等任务。然而,SSH默认使用的端口号是22,这也是黑客们常常......
  • Ubuntu22.04 使用pyppeteer启动浏览器无响应
    问题使用示例代码启动浏览器无响应。解决添加启动参数options={'args':['--no-sandbox']}......
  • Ubuntu 22.04安装
    1、系统镜像准备1)点击此处进入Ubuntu官网,依次点击“Download”——>“GetUbuntuServer”2)点击“DownloadUbuntuServer22.04.3LTS”,创建下载任务2、虚拟机硬件配置1)打开VMwareWorkstaion软件后,依次点击下图左上角红色标注部分“文件”——>“**新建虚拟机(n)**”......
  • 6. 用Rust手把手编写一个wmproxy(代理,内网穿透等), 通讯协议源码解读篇
    用Rust手把手编写一个wmproxy(代理,内网穿透等),通讯协议源码解读篇项目++wmproxy++gite:https://gitee.com/tickbh/wmproxygithub:https://github.com/tickbh/wmproxy事件模型的选取OS线程,简单的一个IO对应一个系统级别的线程,通常单进程创建的线程数是有限的,在线程与......