说明:
TensorRT-LLM是NVIDIA开发的高性能推理
TensorRT-LLM 是 NVIDIA 推出的一个专门用于编译和优化大语言模型推理的综合程序库。 可在 NVIDIA GPU 上加速和优化最新的大语言模型(LLM)的推理性能。 官网地址为:https://github.com/THUDM/ChatGLM3/blob/main/tensorrt_llm_demo/README.md 环境介绍: 服务器系统:Ubuntu22.04显卡:A100(8张) 操作步骤:
1、TensorRT-LLM 代码需要使用 git-lfs 拉取所以下载git git-lfs
apt-get update && apt-get -y install git git-lfs
2、clone项目
git clone https://github.com/NVIDIA/TensorRT-LLM.git
cd TensorRT-LLM
3、使用 v0.7.0 Release 版本
git checkout tags/v0.7.0 -b release/0.7.0
git submodule update --init --recursive
git lfs install
git lfs pull
4、构建docker镜像并安装TensorRT-LLM
cd TensorRT-LLM/docker
(注意切换路径 这里是相对路径 如果和我的路径不一样记得切换)
make release_build
(大约需要1个小时)
5、运行docker镜像
make release_run
运行后会看到起来的容器
6、进入容器安装依赖
docker exec -it ec /bin/bash
cd ./examples/chatglm
pip install -r requirements.txt
apt-get update
apt-get install git-lfs
7、下载模型
git clone https://huggingface.co/THUDM/chatglm3-6b chatglm3_6b
git clone https://huggingface.co/THUDM/chatglm3-6b-base chatglm3_6b_base
git clone https://huggingface.co/THUDM/chatglm3-6b-32k chatglm3_6b_32k
先下载第一个模型测试 因为我在docker里下载超时 所以先下载到本地在上传至docker里
网址为:https://huggingface.co/THUDM/chatglm3-6b/tree/main
将里面的全部下载
注意我没有截全
全部下载后进入容器
cd /code/tensorrt_llm/examples/chatglm
新建文件夹
mkdir chatglm3_6b
然后退出容器
把下载的文件都上至到这个路径下/code/tensorrt_llm/examples/chatglm/chatglm3_6b
上传完后 在进入容器
进入目录
cd /code/tensorrt_llm/examples/chatglm
9、执行代码测试
python3 ../run.py --input_text "秦皇岛周末限号吗" \
--max_output_len 1024 \
--tokenizer_dir chatglm3_6b \
--engine_dir trt_engines/chatglm3_6b/fp16/1-gpu
可以把 "秦皇岛周末限号吗" 换成自己的内容
结果如图:
后续功能待完善...
标签:6b,ChatGLM3,--,chatglm3,TensorRT,git,LLM From: https://www.cnblogs.com/likecoke/p/18097085