用 bitsandbytes、4 比特量化和 QLoRA 打造亲民的 LLM

时间：2023-11-07 23:55:59浏览次数：49

标签：亲民比特 QLoRA 4bit 模型 bitsandbytes llama 量化

众所周知，LLM 规模庞大，如果在也能消费类硬件中运行或训练它们将是其亲民化的巨大进步。我们之前撰写的 LLM.int8 博文展示了我们是如何将 LLM.int8 论文中的技术通过 bitsandbytes 库集成到 transformers 中的。在此基础上，我们不断努力以不断降低大模型的准入门槛。在此过程中，我们决定再次与 bitsandbytes 联手，支持用户以 4 比特精度运行任何模态 (文本、视觉、多模态等) 上的绝大多数 HF 模型。用户还可以利用 Hugging Face 生态系统中的工具在 4 比特模型之上训练适配器。这一工作基于 Dettmers 等人最近在 QLoRA 这篇论文中介绍的一种新方法，其论文摘要如下:

我们提出了 QLoRA，这是一种高效的微调方法，可减少内存使用量，使得在单个 48GB GPU 上就可以微调 65B 的模型，而且所得模型的性能与全 16 比特微调相当。QLoRA 通过冻结 4 比特量化的预训练语言模型将梯度反向传播到低秩适配器 (LoRA) 中。我们最好的模型 (我们将其命名为 Guanaco) 仅需在单个 GPU 上进行 24 小时微调，就能在 Vicuna 基准测试中优于所有之前公开发布的模型，且达到了 ChatGPT 性能水平的 99.3%。QLoRA 引入了多项创新技术，在不牺牲性能的情况下节省内存:(a) 4 位 NormalFloat (NF4)，一种新的数据类型，在信息论意义上是正态分布权重的最佳表示 (b) 双量化，通过对量化系数进行二次量化来减少平均内存占用，以及 (c) 用于降低峰值内存占用的分页优化器。我们使用 QLoRA 微调了 1000 多个模型，并给出了它们在指令依从、聊天等任务上的详细性能分析，其中涵盖了 8 个指令数据集、多种模型架构 (LLaMA、T5)，还包括了无法用常规方法微调的大模型 (例如 33B 和 65B 模型)。结果表明，在小型高质量数据集的进行 QLoRA 微调能带来最先进的性能，且所需的模型尺寸更小。我们使用人类和 GPT-4 对聊天机器人的性能进行了详细评估分析，结果表明 GPT-4 评估是替代人类评估的廉价且合理的方案。此外，我们发现当前的聊天机器人基准测试在准确评估聊天机器人的性能水平这一方面并不十分可信。我们还挑选了一些样本，对 Guanaco 比 ChatGPT 做得不好的案例进行了分析。我们发布了所有模型和代码，包括用于 4 比特训练的 CUDA 核函数。

资源

下面是一些 4 比特模型和 QLoRA 的入门资源:

原始论文
有关 bitsandbytes 基础用法的 Google Colab 笔记本 - 该笔记本展示了如何对 4 比特模型进行推理，以及如何在免费的 Google Colab 实例上运行 GPT-neo-X 模型 (20B)
标签：亲民,比特,QLoRA,4bit,模型,bitsandbytes,llama,量化
From： https://www.cnblogs.com/huggingface/p/17816374.html

使用QLoRA对Llama 2进行微调的详细笔记
使用QLoRA对Llama2进行微调是我们常用的一个方法，但是在微调时会遇到各种各样的问题，所以在本文中，将尝试以详细注释的方式给出一些常见问题的答案。这些问题是特定于代码的，大多数注释都是针对所涉及的开源库以及所使用的方法和类的问题。 https://avoid.overfit.cn/post/903a50......
使用QLoRa微调Llama 2
上篇文章我们介绍了Llama2的量化和部署，本篇文章将介绍使用PEFT库和QLoRa方法对Llama27b预训练模型进行微调。我们将使用自定义数据集来构建情感分析模型。只有可以对数据进行微调我们才可以将这种大模型进行符合我们数据集的定制化。 https://avoid.overfit.cn/post/e2b178d......
大模型微调技术LoRA与QLoRA
LoRA:Low-RankAdaptationofLargeLanguageModels动机大模型的参数量都在100B级别，由于算力的吃紧，在这个基础上进行所有参数的微调变得不可能。LoRA正是在这个背景下提出的解决方案。原理虽然模型的参数众多，但其实模型主要依赖低秩维度的内容(lowintrinsicdimension)，由此......
QLoRa：在消费级GPU上微调大型语言模型
大多数大型语言模型(LLM)都无法在消费者硬件上进行微调。例如，650亿个参数模型需要超过780Gb的GPU内存。这相当于10个A10080gb的gpu。就算我们使用云服务器，花费的开销也不是所有人都能够承担的。而QLoRa(Dettmersetal.，2023)，只需使用一个A100即可完成此操作。在这篇文章中......
bitsandbytes通过源码安装后调用报错AttributeError: module 'bitsandbytes.nn' has n
通过github下载的源码使用pipinstall-e.方式安装的时候会出现题目中的问题。这个时候先卸载掉bitsandbytes，然后重新使用pipinstallbitsandbytes安装，这种方式直接从仓库中安装，问题就解决了。目前尚不清楚问题出现原因，虽然两种方式的安装版本都是0.38.1......
bitsandbytes--Facebook 推出 8 比特优化器大大减少显存
“小夕，小夕！又出来了个SOTA模型！赶紧follow！”小夕看了看新模型的参数量，然后看了看实验室服务器的几张小破卡。小夕，陷入了沉默。自从人们发现越大的模型性能越好后，神经网络模型的参数量就在越来越大的道路上一去不复返了。从XX-large到GPT3，再到5300亿参数的MegatronTur......
大规模 Transformer 模型 8 比特矩阵乘简介 - 基于 Hugging Face Transformers、Accel
引言语言模型一直在变大。截至撰写本文时，PaLM有5400亿参数，OPT、GPT-3和BLOOM有大约1760亿参数，而且我们仍在继续朝着更大的模型发展。下图总结了最近的一些语言模型的尺寸。由于这些模型很大，因此它们很难在一般的设备上运行。举个例子，仅推理BLOOM-176B模型，你就需要8......

用 bitsandbytes、4 比特量化和 QLoRA 打造亲民的 LLM

资源

相关文章

赞助商

阅读排行