手把手教你在Ubuntu上部署中文LLAMA-2大模型

时间：2023-10-01 17:22:38浏览次数：54

标签：LLAMA models 手把手模型 llama Ubuntu cpp q4k python3

一、前言

llama2作为目前最优秀的的开源大模型，相较于chatGPT，llama2占用的资源更少，推理过程更快，本文将借助llama.cpp工具在ubuntu(x86\ARM64）平台上搭建纯CPU运行的中文LLAMA2中文模型。

二、准备工作

1、一个Ubuntu环境（本教程基于Ubuntu20 LTS版操作）

2、确保你的环境可以连接GitHub

3、建议至少60GB以上存储空间（用于存放模型文件等）

　4、建议不低于6GB内存（仅限7B_q4k量化模型）

三、开始部署

1、配置系统

　　　输入下列命令升级和安装所需依赖

sudo apt update

sudo apt-get install gcc g++ python3 python3-pip

#安装python依赖
python3 -m pip install torch numpy sentencepiece

　　2、构建llama.cpp

　　　　从GitHub拉取llama.cpp工具，并进行构建

#拉取llama.cpp
git clone https://github.com/ggerganov/llama.cpp.git

#构建llama.cpp
cd llama.cpp/
make -j8

　　　　(注：make -j后的数字为你的设备物理核心数）

　　3、下载LLAMA2中文模型

　　　　在Chinese-LLaMA-Alpaca-2项目中下载7B/13B的指令模型（apache模型），并将模型文件解压缩放入llama.cpp/models文件夹下

https://github.com/ymcui/Chinese-LLaMA-Alpaca-2#%E6%A8%A1%E5%9E%8B%E4%B8%8B%E8%BD%BD

　　4、量化部署模型

# 安装 Python dependencies
python3 -m pip install torch numpy sentencepiece

# 生成量化模型
python3 convert.py models/前面放入的模型文件夹名称

#4-bit量化
./quantize ./models/前面放入的模型文件夹名称/ggml-model-f16.gguf ./models/7B_q4k.gguf q4k

　　顺利完成上述操作后，models文件夹下会生成一个名为7B_q4k.gguf的模型文件

　　5、启动模型

　　　　将中文llama2模型项目中的scripts/llama-cpp/chat.sh文件拷贝到llama.cpp目录下，并执行以下指令

chmod +x chat.sh

#使用以下命令启动聊天
./chat.sh models/7B_q4k.gguf '请列举5条文明乘车的建议'

标签：LLAMA,models,手把手,模型,llama,Ubuntu,cpp,q4k,python3
From： https://www.cnblogs.com/umi02/p/17739018.html

Llama2-Chinese项目：2.3-预训练使用QA还是Text数据集？
Llama2-Chinese项目给出pretrain的data为QA数据格式，可能会有疑问pretrain不应该是Text数据格式吗？而在Chinese-LLaMA-Alpaca-2和open-llama2预训练使用的LoRA技术，给出pretrain的data为Text数据格式。所以推测应该pretrain时QA和Text数据格式都应该支持。然后马上就会有一个疑问......
Llama2-Chinese项目：3.1-全量参数微调
提供LoRA微调和全量参数微调代码，训练数据为data/train_sft.csv，验证数据为data/dev_sft.csv，数据格式如下所示："<s>Human: "+问题+"\n</s><s>Assistant: "+答案举个例子，如下所示：<s>Human: 用一句话描述地球为什么是独一无二的。</s><s>Assistant: 因为地球是目前为止......
Llama2-Chinese项目：2.1-Atom-7B预训练
虽然Llama2的预训练数据相对于第一代LLaMA扩大了一倍，但是中文预训练数据的比例依然非常少，仅占0.13%，这也导致了原始Llama2的中文能力较弱。为了能够提升模型的中文能力，可以采用微调和预训练两种路径，其中：微调需要的算力资源少，能够快速实现一个中文Llama的雏形。但缺点也显而易见，只......
Llama2-Chinese项目：1-项目介绍和模型推理
Atom-7B与Llama2间的关系：Atom-7B是基于Llama2进行中文预训练的开源大模型。为什么叫原子呢？因为原子生万物，Llama中文社区希望原子大模型未来可以成为构建AI世界的基础单位。目前社区发布了6个模型，如下所示：FlagAlpha/Atom-7BFlagAlpha/Llama2-Chinese-7b-ChatFlagAlpha/Llama2-Ch......
Llama2-Chinese项目：2.2-大语言模型词表扩充
因为原生LLaMA对中文的支持很弱，一个中文汉子往往被切分成多个token，因此需要对其进行中文词表扩展。思路通常是在中文语料库上训练一个中文tokenizer模型，然后将中文tokenizer与LLaMA原生tokenizer进行合并，最终得到一个扩展后的tokenizer模型。国内Chinese-LLaMA-Alpaca开源项目详细......
Ubuntu 16.04 上安装 OrientDB!
这两种模型在如何处理（存储）数据的方面存在着巨大的差异。关系数据库管理系统在关系模型中（如MySQL，或者其分支MariaDB），一个数据库是一个表的集合，其中每个表包含一个或多个以列组织的数据分类。数据库的每行包含一个唯一的数据实例，其分类由列定义。举个例子，想象一个包含客户的表。......
Ubuntu服务器安全性提升：修改SSH默认端口号
在Ubuntu服务器上，SSH（SecureShell）是一种至关重要的远程连接工具。它提供了一种安全的方式来远程连接和管理计算机系统，通过加密通信来确保数据的保密性和完整性。SSH协议广泛用于计算机网络中，用于远程管理、文件传输和安全通信等任务。然而，SSH默认使用的端口号是22，这也是黑客们常常......
Ubuntu22.04 使用pyppeteer启动浏览器无响应
问题使用示例代码启动浏览器无响应。解决添加启动参数options={'args':['--no-sandbox']}......
Ubuntu 22.04安装
1、系统镜像准备1）点击此处进入Ubuntu官网,依次点击“Download”——>“GetUbuntuServer”2）点击“DownloadUbuntuServer22.04.3LTS”,创建下载任务2、虚拟机硬件配置1）打开VMwareWorkstaion软件后,依次点击下图左上角红色标注部分“文件”——>“**新建虚拟机(n)**”......
6. 用Rust手把手编写一个wmproxy(代理，内网穿透等), 通讯协议源码解读篇
用Rust手把手编写一个wmproxy(代理，内网穿透等),通讯协议源码解读篇项目++wmproxy++gite:https://gitee.com/tickbh/wmproxygithub:https://github.com/tickbh/wmproxy事件模型的选取OS线程,简单的一个IO对应一个系统级别的线程，通常单进程创建的线程数是有限的，在线程与......