ollama gpu 集成测试qwen2 7b 模型

时间：2024-06-10 09:15:35浏览次数：28

标签：bin 7b qwen2 -- usr GPU gpu ollama

昨天测试了下基于ollama cpu 模式运行的qwen2 对于小参数0.5b 以及1.5b 的速度还行，但是你的cpu 核数以及内存还是需要大一些
今天测试下基于gpu 的qwen2 7b 模型，以下简单说明下

安装ollama

如果我们申请的机器包含了GPU，ollama 的安装cli 还是比较方便的，会直接帮助我们进行gpu 驱动依赖的安装（包含了repo 源的添加）
还是很方便的，基本算是傻瓜式的

安装命令

curl -fsSL https://ollama.com/install.sh | sh

修改systemd 配置
因为默认ollama 监听的是本地端口，调整为全端口

[Unit]

Description=Ollama Service

After=network-online.target

[Service]

ExecStart=/usr/local/bin/ollama serve

User=ollama

Group=ollama

Restart=always

RestartSec=3

Environment="OLLAMA_HOST=0.0.0.0"

Environment="PATH=/root/.local/bin:/root/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin"

[Install]

WantedBy=default.target

启动服务&& 测试

启动ollama服务

systemctl start ollama

测试
下载模型，通过api

curl -X POST http://localhost:11434/api/pull -d '{"model":"qwen2"}'

访问测试，因为我使用的是如下配置的ECS，整体效果还是很不错的

GPU 监控信息

nvidia-smi

Mon Jun 10 07:18:52 2024

+-----------------------------------------------------------------------------------------+

| NVIDIA-SMI 555.42.02              Driver Version: 555.42.02      CUDA Version: 12.5     |

|-----------------------------------------+------------------------+----------------------+

| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |

| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |

|                                         |                        |               MIG M. |

|=========================================+========================+======================|

|   0  NVIDIA A10                     Off |   00000000:00:07.0 Off |                    0 |

|  0%   47C    P0             61W /  150W |    4885MiB /  23028MiB |      0%      Default |

|                                         |                        |                  N/A |

+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+

| Processes:                                                                              |

|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |

|        ID   ID                                                               Usage      |

|=========================================================================================|

|    0   N/A  N/A    114733      C   ...unners/cuda_v11/ollama_llama_server       4876MiB |

+-----------------------------------------------------------------------------------------+

ollama 进程信息

ollama    114586       1  1 07:06 ?        00:00:29 /usr/local/bin/ollama serve

ollama    116262  114586  3 07:37 ?        00:00:07 /tmp/ollama2821196712/runners/cuda_v11/ollama_llama_server --model /usr/share/ollama/.ollama/models/blobs/sha256-43f7a214e5329f672bb05404cfba1913cbb70fdaa1a17497224e1925046b0ed5 --ctx-size 2048 --batch-size 512 --embedding --log-disable --n-gpu-layers 29 --parallel 1 --port 37123

说明

基于ollama 的大模型部署还是很方便的，而且能提供openai 兼容的api 对于我们开发基于大模型的测试应用还是很方便的

参考资料

https://github.com/ollama/ollama/blob/main/docs/gpu.md
https://github.com/ollama/ollama/blob/main/docs/linux.md
https://ollama.com/install.sh
https://ollama.com/library/qwen2

标签：bin,7b,qwen2,--,usr,GPU,gpu,ollama
From： https://www.cnblogs.com/rongfengliang/p/18240370

ollama qwen2 运行&openai 兼容api 测试
qwen2模型已经发布了，各种新闻都说很不错，所以通过ollama测试下安装ollamaclicurl-fsSLhttps://ollama.com/install.sh|sh启动服务ollamaserve拉取qwen2:1.5b模型使用了api模式clicurl-XPOSThttp://localh......
[AI资讯·0609] SamAltman建立了庞大投资帝国，通义千问Qwen2发布即爆火，OpenAI泄密者公
AI资讯奥特曼28亿「投资帝国」曝光！不要OpenAI股份，当CEO最不赚钱开源超闭源！通义千问Qwen2发布即爆火，网友：GPT-4o危OpenAI泄密者公布165页文件：2027年实现AGI、计算集群将耗资千亿美元清华系细胞大模型登Nature子刊！能对人类2万基因同时建模奥特曼百万年薪挖角谷歌TPU人才，欲砸7万......
Pytorch GPU版环境搭建 CUDA11.2
简单记录下~参考：深度学习环境配置超详细教程【Anaconda+Pycharm+PyTorch(GPU版)+CUDA+cuDNN】pythonpytorch-GPU环境搭建(CUDA11.2)版本概览Python3.8CUDA11.2cuDNN8.1.1torch1.9.1torchvision0.10.1torchaudio0.9.1CUDA判断自己应该下载什么版本的cu......
开发视频会议系统：使用GPU解码渲染视频
现在，使用视频会议系统远程协同办公、沟通交流，已经非常普遍了。如果我们要开发自己的视频会议系统，那么，GPU解码渲染技术是不可缺少的。在视频会议系统中，经常需要同时观看会议中多个参会人员的视频图像，另外，还可能需要同时观看某人分享的屏幕。随着大家......
使用 vllm 本地部署 Qwen2-7B-Instruct
使用vllm本地部署Qwen2-7B-Instruct0.引言1.安装vllm2.本地部署Qwen2-7B-Instruct3.使用Qwen2-7B-Instruct0.引言此文章主要介绍使用使用vllm本地部署Qwen2-7B-Instruct。1.安装vllm创建虚拟环境，condacreate-nmyvllmpython=3.11-ycondaac......
NeMo训练llama2_7b(不用NeMo-Framework-Launcher)
@TOC本文介绍了NeMo如何训练llama2_7b模型1.参考链接支持的模型列表功能特性LLAMA2端到端流程(基于NeMo-Framework-Launcher)2.创建容器dockerrun--gpusall--shm-size=32g-ti-eNVIDIA_VISIBLE_DEVICES=all\--privileged--net=host-v$PWD:/home\......
CF1007B 题解
CF1007B思路显然题目要求计数$u\midA,v\midB,w\midC$。$O(n\sqrtn)$预处理出每个数的所有因数，记为集合$p_i$。容斥，记集合$a,b,c,ab,ac,bc,all$为$p_A,p_B,p_C,p_A\capp_B,p_A\capp_A,p_B\capp_C,p_A\capp_B\capp_C$。可以用bitset维护交集。首先加......
揭秘GPU技术新趋势：从虚拟化到池化
  从GPU虚拟化到池化  大模型兴起加剧GPU算力需求，企业面临GPU资源有限且利用率不高的挑战。为打破这一瓶颈，实现GPU算力资源均衡与国产化替代，GPU算力池化成为关键。本文深入探讨GPU设备虚拟化途径、共享方案及云原生实现，旨在优化资源利用，推动算力革命......
Wgpu图文详解（01）窗口与基本渲染
写在前面如果对Rust与Wgpu比较关注的同学可能在网络上搜到过@sotrh国外大佬编写的《LearnWgpu》，以及国内大佬@jinleili的优秀翻译作品《学习Wgpu》。这些学习教程质量很高，在我学习Wgpu的过程中给了很大的帮助。那为什么还有我这个系列的文章呢？首先，大佬的系列目前winit使用0.29.......
全球最强GPU芯片已量产、下一代Rubin曝光，老黄继续打破摩尔定律
ChatGPT狂飙160天，世界已经不是之前的样子。新建了免费的人工智能中文站https://ai.weoknow.com新建了收费的人工智能中文站https://ai.hzytsoft.cn/更多资源欢迎关注黄仁勋：我家的GPU芯片一年一更新，其他家怎么追？昨晚，英伟达创始人、CEO黄仁勋在2024年COM......

ollama gpu 集成测试qwen2 7b 模型

安装ollama

启动服务&& 测试

说明

参考资料

相关文章

赞助商

阅读排行