首页 > 其他分享 >ollama gpu 集成测试qwen2 7b 模型

ollama gpu 集成测试qwen2 7b 模型

时间:2024-06-10 09:15:35浏览次数:13  
标签:bin 7b qwen2 -- usr GPU gpu ollama

昨天测试了下基于ollama cpu 模式运行的qwen2 对于小参数0.5b 以及1.5b 的速度还行,但是你的cpu 核数以及内存还是需要大一些
今天测试下基于gpu 的qwen2 7b 模型,以下简单说明下

安装ollama

如果我们申请的机器包含了GPU,ollama 的安装cli 还是比较方便的,会直接帮助我们进行gpu 驱动依赖的安装(包含了repo 源的添加)
还是很方便的,基本算是傻瓜式的

  • 安装命令
curl -fsSL https://ollama.com/install.sh | sh
  • 修改systemd 配置
    因为默认ollama 监听的是本地端口,调整为全端口
[Unit]
Description=Ollama Service
After=network-online.target
 
[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="OLLAMA_HOST=0.0.0.0"
Environment="PATH=/root/.local/bin:/root/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin"
 
[Install]
WantedBy=default.target

启动服务&& 测试

  • 启动ollama服务
systemctl start ollama
  • 测试
    下载模型,通过api
curl -X POST http://localhost:11434/api/pull -d '{"model":"qwen2"}'

访问测试,因为我使用的是如下配置的ECS,整体效果还是很不错的

  • GPU 监控信息
nvidia-smi
Mon Jun 10 07:18:52 2024
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 555.42.02              Driver Version: 555.42.02      CUDA Version: 12.5     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA A10                     Off |   00000000:00:07.0 Off |                    0 |
|  0%   47C    P0             61W /  150W |    4885MiB /  23028MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
 
+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|    0   N/A  N/A    114733      C   ...unners/cuda_v11/ollama_llama_server       4876MiB |
+-----------------------------------------------------------------------------------------+
  • ollama 进程信息
ollama    114586       1  1 07:06 ?        00:00:29 /usr/local/bin/ollama serve
ollama    116262  114586  3 07:37 ?        00:00:07 /tmp/ollama2821196712/runners/cuda_v11/ollama_llama_server --model /usr/share/ollama/.ollama/models/blobs/sha256-43f7a214e5329f672bb05404cfba1913cbb70fdaa1a17497224e1925046b0ed5 --ctx-size 2048 --batch-size 512 --embedding --log-disable --n-gpu-layers 29 --parallel 1 --port 37123

说明

基于ollama 的大模型部署还是很方便的,而且能提供openai 兼容的api 对于我们开发基于大模型的测试应用还是很方便的

参考资料

https://github.com/ollama/ollama/blob/main/docs/gpu.md
https://github.com/ollama/ollama/blob/main/docs/linux.md
https://ollama.com/install.sh
https://ollama.com/library/qwen2

标签:bin,7b,qwen2,--,usr,GPU,gpu,ollama
From: https://www.cnblogs.com/rongfengliang/p/18240370

相关文章

  • ollama qwen2 运行&openai 兼容api 测试
    qwen2模型已经发布了,各种新闻都说很不错,所以通过ollama测试下安装ollamaclicurl-fsSLhttps://ollama.com/install.sh|sh启动服务ollamaserve拉取qwen2:1.5b模型使用了api模式clicurl-XPOSThttp://localh......
  • [AI资讯·0609] SamAltman建立了庞大投资帝国,通义千问Qwen2发布即爆火,OpenAI泄密者公
    AI资讯奥特曼28亿「投资帝国」曝光!不要OpenAI股份,当CEO最不赚钱开源超闭源!通义千问Qwen2发布即爆火,网友:GPT-4o危OpenAI泄密者公布165页文件:2027年实现AGI、计算集群将耗资千亿美元清华系细胞大模型登Nature子刊!能对人类2万基因同时建模奥特曼百万年薪挖角谷歌TPU人才,欲砸7万......
  • Pytorch GPU版环境搭建 CUDA11.2
    简单记录下~参考:深度学习环境配置超详细教程【Anaconda+Pycharm+PyTorch(GPU版)+CUDA+cuDNN】pythonpytorch-GPU环境搭建(CUDA11.2)版本概览Python3.8CUDA11.2cuDNN8.1.1torch1.9.1torchvision0.10.1torchaudio0.9.1CUDA判断自己应该下载什么版本的cu......
  • 开发视频会议系统:使用GPU解码渲染视频
       现在,使用视频会议系统远程协同办公、沟通交流,已经非常普遍了。如果我们要开发自己的视频会议系统,那么,GPU解码渲染技术是不可缺少的。   在视频会议系统中,经常需要同时观看会议中多个参会人员的视频图像,另外,还可能需要同时观看某人分享的屏幕。   随着大家......
  • 使用 vllm 本地部署 Qwen2-7B-Instruct
    使用vllm本地部署Qwen2-7B-Instruct0.引言1.安装vllm2.本地部署Qwen2-7B-Instruct3.使用Qwen2-7B-Instruct0.引言此文章主要介绍使用使用vllm本地部署Qwen2-7B-Instruct。1.安装vllm创建虚拟环境,condacreate-nmyvllmpython=3.11-ycondaac......
  • NeMo训练llama2_7b(不用NeMo-Framework-Launcher)
    @TOC本文介绍了NeMo如何训练llama2_7b模型1.参考链接支持的模型列表功能特性LLAMA2端到端流程(基于NeMo-Framework-Launcher)2.创建容器dockerrun--gpusall--shm-size=32g-ti-eNVIDIA_VISIBLE_DEVICES=all\--privileged--net=host-v$PWD:/home\......
  • CF1007B 题解
    CF1007B思路显然题目要求计数\(u\midA,v\midB,w\midC\)。\(O(n\sqrtn)\)预处理出每个数的所有因数,记为集合\(p_i\)。容斥,记集合\(a,b,c,ab,ac,bc,all\)为\(p_A,p_B,p_C,p_A\capp_B,p_A\capp_A,p_B\capp_C,p_A\capp_B\capp_C\)。可以用bitset维护交集。首先加......
  • 揭秘GPU技术新趋势:从虚拟化到池化
      从GPU虚拟化到池化  大模型兴起加剧GPU算力需求,企业面临GPU资源有限且利用率不高的挑战。为打破这一瓶颈,实现GPU算力资源均衡与国产化替代,GPU算力池化成为关键。本文深入探讨GPU设备虚拟化途径、共享方案及云原生实现,旨在优化资源利用,推动算力革命......
  • Wgpu图文详解(01)窗口与基本渲染
    写在前面如果对Rust与Wgpu比较关注的同学可能在网络上搜到过@sotrh国外大佬编写的《LearnWgpu》,以及国内大佬@jinleili的优秀翻译作品《学习Wgpu》。这些学习教程质量很高,在我学习Wgpu的过程中给了很大的帮助。那为什么还有我这个系列的文章呢?首先,大佬的系列目前winit使用0.29.......
  • 全球最强GPU芯片已量产、下一代Rubin曝光,老黄继续打破摩尔定律
        ChatGPT狂飙160天,世界已经不是之前的样子。新建了免费的人工智能中文站https://ai.weoknow.com新建了收费的人工智能中文站https://ai.hzytsoft.cn/更多资源欢迎关注黄仁勋:我家的GPU芯片一年一更新,其他家怎么追?昨晚,英伟达创始人、CEO黄仁勋在2024年COM......