概览
llama.cpp 自带转化工具,把 safetensor 格式的模型文件转化为 gguf 格式,方便用 cpu 进行推理。
需要注意的是,必须连带下载和 safetensor 格式相关的一些配置文件,故转化文件对准的是一个目录。
但同时还要注意,有时模型作者为同一个模型保存了多种框架应用的模型文件,这些文件是没有用的,需要去除。
步骤
- 下载并编译 llama.cpp
- 先转化为 float16 格式的文件。
- 再转化为各种需要的格式。
具体
把转化程序对准 gpt-2 这个目录并转化为 float16 格式
python convert_hf_to_gguf.py models/gpt-2/
看看都可以转化成什么格式,我转化成 Q5_K_M 格式
./llama-quantize -h
./llama-quantize models/gpt-2/ggml-model-f16.gguf models/gpt-2/ggml-model-Q5_K_M.gguf Q5_K_M
试用
/llama-simple -m models/gpt-2/ggml-model-f16.gguf -p "Hello my name is" -n 32
标签:models,gguf,转化,gpt,llama,cpp,格式
From: https://www.cnblogs.com/litifeng/p/18308337