一、从GitHub拉去llama.cpp项目
git clone https://github.com/ggerganov/llama.cpp
下载完成后在当前目录的路径输入cmd,进入命令行
二、安装python执行的相关依赖
执行
pip install -r requirements.txt
三、下载模型文件
依赖安装成功后开始转换模型这里以魔塔上的Chat2DB为例,按照下载步骤使用git拉去模型到本地
四、执行转换gguf命令
python convert-hf-to-gguf.py D:\tool\ollama\models\Chat2DB-SQL-7B
执行完成后会在模型目录生成一个ggml-model-f16.gguf文件*
五、接下来是进行量化
到GitHub上下载发布的版本,也可以本地编译
https://github.com/ggerganov/llama.cpp/releases
我这边在的是llama-b3291-bin-win-noavx-x64,
.\llama-quantize.exe D:\tool\ollama\models\Chat2DB-SQL-7B\ggml-model-f16.gguf D:\tool\ollama\models\Chat2DB-SQL-7B\ggml-model-Q4_K_M.gguf Q4_K_M
执行完成后在模型目录会生成ggml-model-Q4_K_M.gguf文件
六、使用Ollama创建模型
在当前文件创建Modelfile文件,里面内容如下
FROM ./ggml-model-Q4_K_M.gguf
在当前目录进入cmd,输入
ollama create chat2DB:7B -f Modelfile
创建ollama可以运行的模型
ollama run chat2DB:7B
这样一个自定义的模型就使用Ollama运行起来啦
标签:Ollama,7B,Windows,ollama,模型,gguf,llama,ggml,非官方 From: https://blog.csdn.net/qq_26042191/article/details/140617409