首页 > 其他分享 >Accurate Neural Training with 4-bit Matrix Multiplications at Standard Formats

Accurate Neural Training with 4-bit Matrix Multiplications at Standard Formats

时间:2024-12-24 11:10:57浏览次数:9  
标签:Training frac Matrix probability Neural text alpha bit array

目录

Chmiel B., Banner R., Hoffer E., Yaacov H. B. and Soundry D. Accurate neural training with 4-bit matrix multiplications at standard formats. ICLR, 2023.

本文希望实现 4-bit 的模型训练和推理. 提出了一种 logarithmic unbiased quantization (LUQ).

Logarithmic Unbiased Quantization

  • 作者认为, 无偏量化在反向传播中尤为重要因为这保证在期望上和普通的优化策略的一致性. 又梯度整体呈现对数形状, 如何在这些条件下进行量化催生了本文 LUQ.

  • Stochastic underflow: 首先, 对梯度进行一个随机'裁剪':

    \[T_{\alpha}(x) = \left \{ \begin{array}{ll} x, & \text{if } |x| \ge \alpha, \\ \text{sign}(x) \cdot \alpha & \text{with a probability } \frac{|x|}{\alpha}, \text{if } |x| < \alpha, \\ 0 & \text{with a probability } 1 - \frac{|x|}{\alpha}, \text{if } |x| < \alpha. \end{array} \right . \]

    这里取 \(\alpha = \max(|x| / 2^{2^{b-1}})\).

  • Logarithmic SR: 对数量化是选择 bins:

    \[\{\alpha, 2\alpha, \ldots, 2^{2^{b-1}} \alpha \}, \]

    然后按照如下的方式进行 stochastic rounding. 对于 \(2^{n-1}\alpha < x < 2^n \alpha\):

    \[Q_{\alpha}(x) = \left \{ \begin{array}{ll} 2^{n-1} \alpha & \text{with a probability } \frac{2^n \alpha - x}{2^n \alpha - 2^{n-1} \alpha}, \\ 2^{n} \alpha & \text{with a probability } 1 - \frac{2^n \alpha - x}{2^n \alpha - 2^{n-1} \alpha}. \end{array} \right . \]

    作者为了进一步优化这个稍显复杂的 rounding, 提出了 RDNP. 可惜这部分我没咋看懂, \((2^n + 2^{n-1}) / 2 = 3 / 4 \cdot 2^{n-1}\)?.

代码

[代码在 supplementary material 中]

标签:Training,frac,Matrix,probability,Neural,text,alpha,bit,array
From: https://www.cnblogs.com/MTandHJ/p/18626909

相关文章

  • Power of Matrix
    思路书上的原题,早就会了听了一下\(\rm{WGC}\)大佬讲题,这篇权当记录一下,并且熟练一下矩阵\(\LaTeX\)的写法首先我们发现,直接往上加是慢的,我们考虑先转化一下令\(s_i=A^0+A^1+A^2+\cdotsA^i\)那么有,\(s_i=s_{i-1}+A^i\)考虑用这个来矩阵优化......
  • AlexNet: ImageNet Classification with Deep Convolutional Neural Networks
    摘要:在ImageNet竞赛中,主要使用8层(5个卷积层、三个全连接层),其中在第1,2,5层使用最大池化,三个全连接层使用softmax非线性激活。实现图像分类,正是AlexNet网络模型的结构,在传统的神经网络模型中,使用非饱和和高效的CPU来卷积操作,同时也是用“dropout”(正则化)来减少过拟合。1介绍对于......
  • Debiasing Model Updates for Improving Personalized Federated Training为改进个性
    第一部分:解决的问题联邦学习(FL)是一种分布式机器学习方法,允许设备在不共享本地数据的情况下协同训练模型。在个性化联邦学习中,目标是为每个设备训练个性化模型,而不是一个通用的全局模型。然而,由于设备之间数据分布的异质性,传统方法会导致模型偏差。第二部分:解决的方法/idea......
  • 2024年如何通过Risk Matrix进行项目风险评估?有效管理风险的方法
    在项目管理中,风险评估和管理是至关重要的环节。随着时间的推移,新的挑战不断涌现,我们需要更加高效和精准的方法来应对项目风险。2024年,RiskMatrix(风险矩阵)成为了众多项目管理者青睐的工具,它能够帮助我们系统地评估风险,并制定有效的风险管理策略。一、RiskMatrix简介Ris......
  • 论文解读-Graph neural networks: A review of methods and applications
     论文介绍这篇论文是图神经网络领域的综述性质的文章,从各个论文里面凝聚和提取了很多精炼的信息和观点,值得一读。论文是2020年成稿投出去的,有点陈旧的。 GNN的介绍在introduction里面对比了GNN和CNN,表示出CNN的关键是局部连接,共享权重,和多层的使用。其中CNN操作的是常规......
  • 强化学习:基于课程学习的强化学习算法 —— 《Combining Reward Shaping and Curriculu
    地址:https://www.tesble.com/10.1109/ICTC.2018.8539438我们在四种不同的奖励函数和终止条件下对行走者进行了训练,以评估结合奖励塑形和课程学习的效果。具体如下。1)距离稀疏奖励:行走者到达目标时给予1个奖励,否则为0。2)距离课程奖励:给予行走者的奖励与行走者距离稀疏奖励......
  • 【AI学习笔记3】神经元、神经网路与感知机 Neuron、Neural Network and Perceptron
    一、从生物神经元到人工神经网络    每个神经元细胞都向外伸出许多分支,其中用来接收输入的分支称作树突(dendrites),用来输出信号的分支称作轴突(axon),轴突连接到树突上形成一个突触(synapse)。每个神经元可以通过这种方式连接多个其他神经元,每个神经元也可以接受多个其他......
  • [论文阅读] Breaking the Representation Bottleneck of Chinese Characters{colon}Ne
    Pretitle:BreakingtheRepresentationBottleneckofChineseCharacters:NeuralMachineTranslationwithStrokeSequenceModelingaccepted:EMNLP2022paper:https://arxiv.org/abs/2211.12781code:https://github.com/zjwang21/StrokeNet关键词:NMT(neuralmachin......
  • Language models scale reliably with over-training and on downstream tasks
    本文是LLM系列文章,针对《Languagemodelsscalereliablywithover-trainingandondownstreamtasks》的翻译。语言模型可以通过过度训练和下游任务可靠地扩展摘要1引言2为过度训练和下游任务制定缩放法3构建缩放试验台4结果:可靠的推断5相关工作6局限性......
  • 从零开始的 CPT (Continual Pre-Training): 摆脱复杂的训练框架
    由于要解决一些业务问题,需要将领域知识喂给大模型。之前只做过简单的finetuning(在GLM的框架上跑了一些lora,数据量也不大),但是现在要将整个细分工业领域的相关数据都收集起来训练,规模上比之前半手动构造的微调数据集要大了很多,调研了一圈,更适合在pre-train阶段去做训练。尝试......