DISTILLM: Towards Streamlined Distillation for Large Language Models

时间：2024-04-07 09:58:35浏览次数：31

标签：Towards Language KD Models 模型 Distillation Large Streamlined DISTILLM

本文是LLM系列文章，针对《DISTILLM: Towards Streamlined Distillation for Large Language Models》的翻译。

DISTILLM：面向大型语言模型的流线蒸馏

摘要
1 引言
2 背景
3 DISTILLM
4 实验
5 分析与讨论
6 相关工作
7 结论

摘要

知识蒸馏（KD）被广泛用于将教师模型压缩为较小的学生模型，在保留模型能力的同时降低其推理成本和内存占用。然而，当前用于自回归序列模型（例如，大型语言模型）的KD方法缺少标准化的目标函数。此外，最近使用学生生成的输出来解决训练推理不匹配的问题，显著增加了计算成本。为了解决这些问题，我们引入了DISTILLM，这是一个用于自回归语言模型的更有效的KD框架。DISTILLM包括两个组成部分：（1）一种新的偏斜Kullback-Leibler发散损失，我们在其中揭示并利用其理论特性；（2）

标签：Towards,Language,KD,Models,模型,Distillation,Large,Streamlined,DISTILLM
From： https://blog.csdn.net/c_cpp_csharp/article/details/137365792

`.gitattributes` 文件中的 *.js linguist-language=ts *.tsx linguist-language=ts
.jslinguist-language=ts和.tsxlinguist-language=ts是针对特定文件类型的元数据标记，它们的作用是在特定的上下文中指示这些文件的实际编程语言类型，而非其扩展名所暗示的语言。具体来说：.jslinguist-language=ts表示尽管文件以.js扩展名结尾，但实际上它应该被视为TypeScr......
Coursera自然语言处理专项课程04：Natural Language Processing with Attention Models
NaturalLanguageProcessingSpecializationIntroductionhttps://www.coursera.org/specializations/natural-language-processingCertificateNaturalLanguageProcessingwithAttentionModelsCourseCertificate本文是学习这门课NaturalLanguageProcessing......
Html language common symbolic entities
htmllanguagecommonsymbolicentities一、概述在HTML中，某些字符是预留的。在HTML中不能使用小于号（<）和大于号（>），这是因为浏览器会误认为它们是标签。如果希望正确地显示预留字符，我们必须在HTML源代码中使用字符实体（characterentities）。字符实体类似如下：&entity_name;......
Autodesk Maya 2025 Multilanguage (macOS, Linux, Windows) - 三维动画和视觉特效软
AutodeskMaya2025Multilanguage(macOS,Linux,Windows)-三维动画和视觉特效软件三维计算机动画、建模、仿真和渲染软件请访问原文链接：https://sysin.org/blog/autodesk-maya/，查看最新版。原创作品，转载请保留出处。作者主页：sysin.org三维计算机动画、建模、仿真和渲染......
Large Language Models for Time Series: A Survey
本文是LLM系列文章，针对《LargeLanguageModelsforTimeSeries:ASurvey》的翻译。时间序列的大型语言模型综述摘要1引言2背景和问题定义3分类4分类学中的比较5多模态数据集6挑战与未来方向7结论摘要大型语言模型在自然语言处理和计算机视觉等领......
DML（Data Manipulation Language、数据操作语言），用于添加、删除、更新和查询数据库记
****************************************************************************************DML（DataManipulationLanguage、数据操作语言），用于添加、删除、更新和查询数据库记录，并检查数据完整性。主要的语句关键字包括INSERT、DELETE、UPDATE、SELECT等。SELECT......
Where to Go Next for Recommender Systems? ID- vs. Modality-based Recommender Mod
目录概符号/缩写说明TrainingdetailsDatasetsE2E下MoRec是否优于IDRec?RegularsettingWarmsetting越好的encoder带来越好的推荐效果?TSversusE2E?总结代码YuanZ.,YuanF.,SongY.,LiY.,FuJ.,YangF.,PanY.andNiY.Wheretogonextforrecommendersys......
GPT-1原理-Improving Language Understanding by Generative Pre-Training
文章目录前言提出动机模型猜想模型提出模型结构模型参数模型预训练训练的目标训练方式训练参数预训练数据集预训练疑问点模型微调模型输入范式模型训练微调建议微调疑问点实验结果分析GPT-1缺陷前言首先想感慨一波这是当下最流行的大模型的的开篇之作，由OpenAI提......
【WEEK5】【DAY5】DML Language【English Version】
2024.3.29FridayContents3.DMLLanguage3.1.ForeignKeys(ForUnderstanding)3.1.1.Concept3.1.2.Purpose3.1.3.SeveralMethodstoAdd(Write)ForeignKeys3.1.3.1.CreatingtheTablewithDirectReferenceInside(thepartbeingreferencedoftherefe......
A Systematic Survey of Prompt Engineering in Large Language Models: Techniques a
本文是LLM系列文章，针对《ASystematicSurveyofPromptEngineeringinLargeLanguageModels:TechniquesandApplications》的翻译。大型语言模型中提示工程的系统综述：技术与应用摘要1引言2提示工程3结论摘要提示工程已经成为扩展大型语言模型（LLM）和视......

DISTILLM: Towards Streamlined Distillation for Large Language Models

DISTILLM：面向大型语言模型的流线蒸馏

摘要

相关文章

赞助商

阅读排行