本文是LLM系列文章,针对《DISTILLM: Towards Streamlined Distillation for Large Language Models》的翻译。
DISTILLM:面向大型语言模型的流线蒸馏
摘要
知识蒸馏(KD)被广泛用于将教师模型压缩为较小的学生模型,在保留模型能力的同时降低其推理成本和内存占用。然而,当前用于自回归序列模型(例如,大型语言模型)的KD方法缺少标准化的目标函数。此外,最近使用学生生成的输出来解决训练推理不匹配的问题,显著增加了计算成本。为了解决这些问题,我们引入了DISTILLM,这是一个用于自回归语言模型的更有效的KD框架。DISTILLM包括两个组成部分:(1)一种新的偏斜Kullback-Leibler发散损失,我们在其中揭示并利用其理论特性;(2)
标签:Towards,Language,KD,Models,模型,Distillation,Large,Streamlined,DISTILLM From: https://blog.csdn.net/c_cpp_csharp/article/details/137365792