[本科项目实训] 模型量化技术

时间：2024-06-24 12:43:04浏览次数：3

概述

模型量化作为一种能够有效减少模型大小，加速深度学习推理的优化技术，主要包含 8/4/2/1 bit等精度设置。在 8-bit 低精度推理中，我们将一个原本 FP32 的 weight/activation 浮点数张量转化成一个 int8/uint8 张量，从而减少内存带宽和存储空间，并提高系统吞吐量降低系统时延。[2] 中具体给出了经典量化算法的实现，这里不再展开。

使用

在本次项目使用的transformers库中，可以通过以下函数进行量化：

model = model.quantize(model_args.quantization_bit)

我们尝试使用该技术并进行对比，模型表现前后差异不大。但模型所需要的显存大幅降低，可以更便于部署在CPU等设备上，在实际使用场景中有很大的运用价值。

参考资料

[1] 深度学习模型量化（低精度推理）大总结_深度学习量化-CSDN博客

[2] 人工智能 - LLM 大模型学习必知必会系列(六)：量化技术解析、QLoRA技术、量化库介绍使用（AutoGPTQ、AutoAWQ） - 汀NLP - SegmentFault 思否

标签：模型,技术,实训,本科,量化,model,推理,bit
From： https://www.cnblogs.com/yichengliu0219/p/18264218

[本科项目实训] Hugging Face Transformers 模型部署与微调
TransformersHuggingFaceTransformer提供了模型的加载、推理、微调接口，使用该库可以轻松完成自然语言模型的部署微调工作，其有继承自AutoClass的四个最为常见的接口，且调用方式均为AutoClass.from_pretrain("model_name")：AutoTokenizer:用于文本分词AutoFeatureExtractor:用......
[本科项目实训] ChatGLM3 与 ChatGLM4 简述
ChatGLM3-6B简述ChatGLM3-6B是ChatGLM系列最新一代的开源模型，在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上，ChatGLM3-6B引入了如下特性：更强大的基础模型：ChatGLM3-6B的基础模型ChatGLM3-6B-Base采用了更多样的训练数据、更充分的训练步数和更合理的......
创新实训（九）CodeForces 数据和微调数据处理
Codeforces数据获取Codeforces的题目中存在一些数学公式，所以处理的时候需要比较小心的对其进行处理。首先是题面数据，在CF当中标识一道题目的方式是problemSet与problemId。其中problemSet是一个数字，而problemId是一个字母。另外需要注意的是CF题面中存在许多数学......
创新实训（十）大模型微调
1.数据部分CodeGeeX基于ChatGLM基座语言模型，所以需要关注ChatGLM的训练数据。训练数据为jsonl格式，每一行的数据格式如下，其中chat_rounds字段是必需的，可以根据实际需求添加或删除其他字段。在本项目当中，我们更加关注的是模型的单轮对话能力，所以只需要单轮对话数据。推理......
创新实训（十）——代码美化部分：导航栏的active
代码美化部分————导航栏的active对于导航栏来说，当选定在某个功能部分时，当前模块会有高亮显示。查看main-nav.php中有管导航栏的代码<divclass="collapsenavbar-collapse"id="navbarSupportedContent"> <ulclass="navnav-pillsmain-navmr-auto"> <liclass="......
黑盾杯本科组初赛2024
就出了misc和crypto,其他方向是一个没出啊啊啊啊锐评：sb密码crypto学会sm我的进制我做主直接-'a'输出看一下，只有0-17，猜测18进制a="ergdgjboglfpgcbpbofmgafhfngpfoflfpfkgjgccndcfqfpgcgofofpdadadagr"b=[]c=set()foriina:x=ord(i)-ord('a')c.add(x)b......
创新实训（八）——题目相关的逻辑处理解释
题目部分题目是整个OJ系统的练习基础，无论是平时学生的练习还是比赛时的准备用题，题目系统在OJ中都是至关重要的。在controllers文件夹下，负责题目部分的代码文件分别为：problem_set.php,problem.php,problem_statistics.php,problem_data_manage.php,problem_statement_manage.php,p......
创新实训（10）- 大模型服务进一步完善&邮件服务
之前为应付中期检查简单接入了一个基础服务，并未对prompt词等做太深入的细分，为了实现更人性化的效果，我对大模型的服务进行了更进一步的完善首先是前端的效果：超级用户端：一般用户端：三个按钮分别对应AI整理格式，AI基础纠错，AI结合题目和代码详细检查错误。前两者的返回值是......
创新实训（8）- 大模型服务进一步完善&邮件服务
之前为应付中期检查简单接入了一个基础服务，并未对prompt词等做太深入的细分，为了实现更人性化的效果，我对大模型的服务进行了更进一步的完善首先是前端的效果：超级用户端：一般用户端：三个按钮分别对应AI整理格式，AI基础纠错，AI结合题目和代码详细检查错误。前两者的返回值是......
[本科项目实训] Anaconda 环境迁移
问题描述由于本地显卡GeForceRTX4070Ti推理速度较慢，我们拟采用服务器GeForceRTX3090进行最后的项目展示，因而需要重新配置环境。由于Cuda版本和Conda版本基本一致，拟采用condapack指令进行快速迁移。解决方案第一步，在base环境下载condapack：pipinstallconda-pack第......

[本科项目实训] 模型量化技术

概述

使用

参考资料

相关文章

赞助商

阅读排行