计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-21

标签：10 剪枝 LLMs 模型 2024 token 前沿技术法律上下文

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-21

1. The Fair Language Model Paradox

Authors: Andrea Pinto and Tomer Galanti and Randall Balestriero
https://arxiv.org/abs/2410.11985

大型语言模型的公平性悖论

摘要

本文研究了大型语言模型（LLMs）在训练过程中的token级动态，特别是权重衰减对不同频率token性能的影响。研究发现，随着权重衰减的增加，模型对低频token的性能影响更大，这在大多数语言中构成了词汇的绝大多数。这一发现对于确保所有可用token的公平性至关重要，需要开发新的正则化技术。

研究背景

大型语言模型（LLMs）在现实世界的应用中广泛部署，但对其在token级别训练动态的了解甚少。通常的评估依赖于在批量级别测量的聚合训练损失，这忽略了由token级动态和超参数引入的结构偏差所产生的微妙的每个token的偏差。
在这里插入图片描述

问题与挑战

权重衰减虽然常用于稳定训练，但研究发现它在token级别上引入了性能偏差。
在不同数据集大小、模型架构和参数量（从2.7亿到30亿参数）的模型中，随着权重衰减的增加，低频token受到不成比例的贬低。
这些被忽视的低频token在大多数语言的token分布中占绝大多数，这对模型的公平性提出了挑战。

如何解决

研究者们通过实验展示了权重衰减对不同频率token的影响，并提出了需要新的正则化技术来确保所有token的公平性。

创新点

揭示了权重衰减在token级别上引入的偏差，这种偏差在传统的基于批量的评估中是检测不到的。
提出了需要新的正则化技术，以确保在不平衡的token分布上训练的LLMs中所有token的公平性。

算法模型

研究中使用了不同的模型架构和大小，包括Apple OpenELM模型（2.7亿和30亿参数）和Qwen2模型（0.5亿和1.5亿参数）。这些模型在IMDB数据集及其扩展版本上进行了训练，使用了不同的权重衰减水平。

实验效果

实验结果表明，随着权重衰减的增加，模型在低频token上的性能显著下降，而高频token的性能基本不受影响。
通过对比不同权重衰减水平下的每个token的交叉熵损失，研究者们发现低频token在更高的权重衰减下遭受了更高的损失。
研究还发现，随着权重衰减的增加，高频token的学习速度比低频token快，这表明正则化可能对罕见token不利。

重要数据与结论

在IMDB数据集上，95%的总token被词汇表中顶部0.01%的token捕获，表明了token频率的极端不平衡。
随着权重衰减的增加，模型在低频token上的交叉熵损失显著增加，而高频token的损失增加较少。
研究强调了在LLMs训练实践中一个重大的疏忽：权重衰减虽然可以改善整体损失指标的收敛和稳定性，但可能会严重影响模型处理低频token的能力。

推荐阅读指数：★★★★☆

2. DISP-LLM: Dimension-Independent Structural Pruning for Large Language Models

Authors: Shangqian Gao and Chi-Heng Lin and Ting Hua and Tang Zheng and Yilin
Shen and Hongxia Jin and Yen-Chang Hsu
https://arxiv.org/abs/2410.11988
在这里插入图片描述
DISP-LLM: 大型语言模型的维度无关结构性剪枝

摘要

本文提出了一种新的结构性剪枝方法，用于压缩大型语言模型（LLMs），而不需要额外的后处理步骤。该方法通过打破传统结构性剪枝方法中的结构依赖，允许不同层选择不同的特征子集，并且可以自由调整每层的宽度，从而显著提高了结构剪枝的灵活性。实验结果表明，该方法在多种LLMs上的表现超过了其他最先进的方法，并首次展示了结构性剪枝可以达到与半结构性剪枝相似的准确性。

研究背景

大型语言模型（LLMs）在自然语言处理任务中取得了显著的成功，但是这些模型的内存和计算成本对于资源受限的设备来说是一个挑战。为了在不牺牲性能的情况下部署这些模型，需要有效的压缩技术。