首页 > 其他分享 >一个小时内快速部署大模型

一个小时内快速部署大模型

时间:2024-07-29 19:30:00浏览次数:12  
标签:github 部署 模型 GGUF llama gpu 快速 可以

这个教程有以下几部分构成:

  1. 硬件配置
  2. 概念介绍
  3. 实操
  4. 测试结果

1.硬件配置

本文使用的方法配置要求低,没有gpu也可以正常使用(就是有点慢),不管是windows 还是linux,都可以无障碍使用大模型,有脚就行,废话少说, let's rock!

2.概念介绍

几个部署要用到的概念,工具和项目

  1. hugging face:
    类似于模型的github,各种各样的开源模型都可以在这被找到.
  2. 模型量化技术:
    这也是我们能够在低端设备上部署模型的关键理论,降低加载模型的精度使得内存、显存使用量更低.
    3.GGUF
    这是一种用来高效存储模型的格式,方便快速加载和传输.
  3. llama.cpp
    这个工具十分强大,即使没有gpu,也可以使用cpu自带的simd指令集(类似于avx512)进行快速推理,也可以同时使用gpu和cpu一起推理。它也可以被编译到App中,在客户端本地进行推理. 也可以变身为一个chatgpt api兼容的web服务器。总之可玩性非常强.

3.实操

1)hugging face的使用(别的也行,方法类似):

(点点点)
这里就不再对各大厂商发布的模型做介绍了, 可以去官网上选择自己合适的。
举个例子,可以通过翻越某种保护性建筑(高约2m)的方式,访问下面的这个地址,查看google开源的gemma 2模型(it 表示这是对指令微调过的, -GGUF表示这是被转化成GGUF格式的),其中不同等级的经过量化的文件和他们的效果都在表格中,可以选择合适自己的。

https://huggingface.co/bartowski/gemma-2-9b-it-GGUF
下载下来的文件是个GGUF格式的文件。

2)llama.cpp(别的也行,方法类似)

(conrol c + control v)
https://github.com/ggerganov/llama.cpp
如果你有支持cuda的gpu,需要加一个编译时参数(需要重新编译项目)来加速推理过程,可以看看这个教程
https://github.com/ggerganov/llama.cpp/blob/master/docs/build.md#cuda
如果没有GPU下个符合自己电脑架构的release版就可以了

4.检验成果

1) 简单对话机器人

llama-cli -m 你的gguf文件名 -p "You are a helpful assistant" -cnv

2)作为一个服务器使用

使用命令
./llama-server -m 你的gguf文件名 --port 8080

3)gpu参数

-ngl 35, 后面数字越大,代表越多层被移进gpu,随之而来的是速度越快。
还有挺多玩法,可以看看github上的补充细节,相信你们能做到,呵呵。

测试结果

本人在一台gpu虚拟化(显存6GB P40)的linux虚拟机上(内存32GB,30虚拟核心)使用5bit量化的gemma2-9b-it模型,速度可以达到10tokens/s,考虑到垃圾的硬件配置,这个速度可以说是不错了。

要是还有什么别的需求,可以给我留言,我再针对一些详细的玩法,比如说构建前端啦,后端啦,chatgpt api之类的,写点文章。帮助大家打破信息茧房。

标签:github,部署,模型,GGUF,llama,gpu,快速,可以
From: https://www.cnblogs.com/lisp666/p/18330867

相关文章

  • Redis快速入门
    一、简介redis为非关系型数据库,将数据以key-value(键值对)的形式存入内存基于内存存储,读写性能更高存储热点信息(短时间内存储大量数据)企业应用广泛官网Redis-TheReal-timeDataPlatform中文网Redis中文网二、下载与安装下载地址https://github.com/microsoftarc......
  • window系统使用Tomcat部署若依微服务
    安装JAVA下检查是否安装了JAVAjava-version提示"java:commandnotfound"则表示没有安装,如果安装了会显示JAVA版本信息CentOS安装JAVAsudoyuminstalljava-11-openjdk-devel 安装完成再执行一下:java-version 说明安装成功,没问题设置环境变量设置JAVA_HO......
  • Contest5388 - 矩阵快速幂
    A签到题B斐波那契数列(加强版)板子。C青蛙王子矩阵快速幂优化DP板子。D求和原题UVA10655Contemplation!Algebra。矩阵快速幂题怎么能用矩阵快速幂做呢?不难发现\(a=\frac{p+\sqrt{p^2-4q}}2,b=\frac{p-\sqrt{p^2-4q}}2\),扩域快速幂即可。E旅......
  • kubeadm安装部署K8S-1.30.2
    1、环境准备1.1、节点规划#CentOSLinuxrelease7.9.2009(Core)master0110.202.30.22 #4C8Gnode0110.202.30.30 #4C8Gnode0210.202.30.31 #4C8G1.2、配置hosts主机名解析#vim/etc/hosts10.202.30.22master0110.202.30.30nod......
  • 借助大语言模型快速升级你的 Java 应用程序
    大家都知道我爱小Q。在我“转码”的征程中,它就像上帝之手,在我本该枯燥漫长的学习进程中拉满快进条。不仅是我,最近AmazonQDeveloper还帮助Amazon一个由5人组成的团队在短短两天内将1,000多个生产应用程序从Java8升级到Java17(每个应用程序的平均时间不到10分钟)。......
  • 探索:如何利用和训练overfitting的模型
    在机器学习中,过拟合模型通常被视为一个问题,但它们在多个方面也具有实际应用价值。以下是对利用过拟合模型进行调试、教学、基准测试、竞赛、特征重要性分析、对抗性测试、模型集成、迁移学习等方法的总结。首先,调试和理解模型行为是一个重要应用领域。通过分析过拟合模型在......
  • 【IEEE-CPS独立出版,高录用,该出版社检索快速且稳定!收稿主题大,管理、计算机相关主题皆可
    2024年创新与信息管理国际会议(ICIIM2024)为第四届管理科学和软件工程国际学术会议(ICMSSE2024)的分会,主会由ACM珠海分会,广州番禺职业技术学院主办;全国区块链行业产教融合共同体承办,将于2024年9月6-8日于广州召开。会议旨在为从事管理与信息工程领域的专家学者、工程技术人员、......
  • JSP学生社团管理系统k2120(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文
    系统程序文件列表开题报告内容JSP学生社团管理系统开题报告一、课题背景与意义课题背景随着高等教育的普及和学生综合素质培养的重视,学生社团在高校中扮演着越来越重要的角色。它们不仅是学生锻炼能力、展示才华的平台,也是促进学生交流、丰富校园文化生活的重要途径。然而......
  • JSP学生社团管理系统ja976(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。
    系统程序文件列表开题报告内容JSP学生社团管理系统开题报告一、课题背景与意义课题背景随着高校教育改革的深入和学生活动的日益丰富,学生社团作为校园文化的重要载体,其管理和运营面临着诸多挑战。传统的社团管理方式往往依赖于纸质文档和人工操作,不仅效率低下,而且容易出......
  • Amazon Bedrock 模型微调实践(一):微调基础篇
    本博客内容翻译自作者于2024年7月在亚马逊云科技开发者社区发表的同名博客:“MasteringAmazonBedrockCustomModelsFine-tuning(Part1):GettingstartedwithFine-tuning”:https://community.aws/content/2jNtByVshH7vnT20HEdPuMArTJL?trk=cndc-detail亚马逊云科技......