昨天测试了下基于ollama cpu 模式运行的qwen2 对于小参数0.5b 以及1.5b 的速度还行,但是你的cpu 核数以及内存还是需要大一些
今天测试下基于gpu 的qwen2 7b 模型,以下简单说明下
安装ollama
如果我们申请的机器包含了GPU,ollama 的安装cli 还是比较方便的,会直接帮助我们进行gpu 驱动依赖的安装(包含了repo 源的添加)
还是很方便的,基本算是傻瓜式的
- 安装命令
curl -fsSL https://ollama.com/install.sh | sh
- 修改systemd 配置
因为默认ollama 监听的是本地端口,调整为全端口
[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="OLLAMA_HOST=0.0.0.0"
Environment="PATH=/root/.local/bin:/root/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin"
[Install]
WantedBy=default.target
启动服务&& 测试
- 启动ollama服务
systemctl start ollama
- 测试
下载模型,通过api
curl -X POST http://localhost:11434/api/pull -d '{"model":"qwen2"}'
访问测试,因为我使用的是如下配置的ECS,整体效果还是很不错的
- GPU 监控信息
nvidia-smi
Mon Jun 10 07:18:52 2024
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 555.42.02 Driver Version: 555.42.02 CUDA Version: 12.5 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA A10 Off | 00000000:00:07.0 Off | 0 |
| 0% 47C P0 61W / 150W | 4885MiB / 23028MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| 0 N/A N/A 114733 C ...unners/cuda_v11/ollama_llama_server 4876MiB |
+-----------------------------------------------------------------------------------------+
- ollama 进程信息
ollama 114586 1 1 07:06 ? 00:00:29 /usr/local/bin/ollama serve
ollama 116262 114586 3 07:37 ? 00:00:07 /tmp/ollama2821196712/runners/cuda_v11/ollama_llama_server --model /usr/share/ollama/.ollama/models/blobs/sha256-43f7a214e5329f672bb05404cfba1913cbb70fdaa1a17497224e1925046b0ed5 --ctx-size 2048 --batch-size 512 --embedding --log-disable --n-gpu-layers 29 --parallel 1 --port 37123
说明
基于ollama 的大模型部署还是很方便的,而且能提供openai 兼容的api 对于我们开发基于大模型的测试应用还是很方便的
参考资料
https://github.com/ollama/ollama/blob/main/docs/gpu.md
https://github.com/ollama/ollama/blob/main/docs/linux.md
https://ollama.com/install.sh
https://ollama.com/library/qwen2