【星球知识卡片】模型蒸馏的核心技术点有哪些，如何对其进行长期深入学习...

时间：2023-08-10 16:06:28浏览次数：41

标签：点有 ... 蒸馏卡片模型知识框架 student teacher

大家好，欢迎来到我们的星球知识小卡片专栏，本期给大家分享模型蒸馏的核心技术点。

作者&编辑 | 言有三

【星球知识卡片】模型蒸馏的核心技术点有哪些，如何对其进行长期深入学习..._特征匹配

1 什么是模型蒸馏

一般地，大模型往往是单个复杂网络或者是若干网络的集合，拥有良好的性能和泛化能力，而小模型因为网络规模较小，表达能力有限。利用大模型学习到的知识去指导小模型训练，使得小模型具有与大模型相当的性能，但是参数数量大幅降低，从而可以实现模型压缩与加速，就是知识蒸馏与迁移学习在模型优化中的应用。

Hinton等人最早在文章“Distilling the knowledge in a neural network”中提出了知识蒸馏这个概念，其核心思想是一旦复杂网络模型训练完成，便可以用另一种训练方法从复杂模型中提取出来更小的模型，因此知识蒸馏框架通常包含了一个大模型(被称为teacher模型)，和一个小模型(被称为student模型)。

【星球知识卡片】模型蒸馏的核心技术点有哪些，如何对其进行长期深入学习..._目标驱动_02

2 优化目标驱动的知识蒸馏框架

Hinton等人提出的框架是在模型最后的预测端，让student模型学习到与teacher模型的知识，这可以称之为直接使用优化目标进行驱动的框架，也是最简单最直接的框架，它不关心中间的学习过程，类似的还有ProjectionNet等。

【星球知识卡片】模型蒸馏的核心技术点有哪些，如何对其进行长期深入学习..._特征匹配_03

3 特征匹配的知识蒸馏框架

目标驱动型的知识蒸馏框架的具体细节是难以控制的，会让训练变得不稳定且缓慢。一种更直观的方式是将teacher模型和student模型的特征进行约束，从而保证student模型确实继承了teacher模型的知识，其中一个典型代表就是FitNets，FitNets将比较浅而宽的Teacher模型的知识迁移到更窄更深的Student模型上。

【星球知识卡片】模型蒸馏的核心技术点有哪些，如何对其进行长期深入学习..._核心技术_04

4 没有教师模型的知识蒸馏

一般知识蒸馏框架都需要包括一个Teacher模型和一个Student模型，而Deep mutual learning则没有Teacher模型，它通过多个小模型进行协同训练，这也是非常有研究意义的方向。

【星球知识卡片】模型蒸馏的核心技术点有哪些，如何对其进行长期深入学习..._目标驱动_05

5 与其他框架的结合

在进行知识蒸馏时，我们通常假设teacher模型有更好的性能，而student模型是一个压缩版的模型，这不就是模型压缩吗？与模型剪枝，量化前后的模型对比是一样的。所以知识蒸馏也被用于与相关技术进行结合，apprentice框架是一个代表。

【星球知识卡片】模型蒸馏的核心技术点有哪些，如何对其进行长期深入学习..._目标驱动_06

6 其他

总的来说，模型蒸馏有非常多的研究方向，包括：

(1) 优化目标驱动的知识蒸馏框架拓展。

(2) 基于特征匹配的知识蒸馏框架拓展。

(3) 不压缩模型，甚至训练更大模型的框架。

(4) 无教师模型的框架。

(5) 自动搜索的框架。

(6) 与其他模型压缩技术的结合。

(7) 其他。

以上内容，如果你不想自己学习，可以去我们知识星球的网络结构1000变板块—模型蒸馏板块阅读。

【星球知识卡片】模型蒸馏的核心技术点有哪些，如何对其进行长期深入学习..._特征匹配_07

【星球知识卡片】模型蒸馏的核心技术点有哪些，如何对其进行长期深入学习..._目标驱动_08

标签：点有,...,蒸馏,卡片,模型,知识,框架,student,teacher
From： https://blog.51cto.com/u_14122493/7036720

【通知】有三AI更新420页14万字视觉算法工程师成长指导手册，可下载收藏打印...
各位同学，可还记得我们发布的《深度学习视觉算法工程师成长指导手册》，现在更新了，超过14万字，420页文档，可下载收藏打印，目录如下，文末提供了下载方式。手册简介目前深度学习在图像，语音，NLP领域大展拳脚，不管是本专业还是非本专业的技术人员都有很多人投身这一行，但是学校的学科建设刚刚开始......
【通知】如何让你的2020年秋招CV项目经历更加硬核，可深入学习有三秋季划4大领域32个方
眼看着2020年上半年已经所剩无几了，大家也经历了一个不一样的学期，许多即将毕业的同学和准备换工作的朋友也在开始准备秋招了。为了让大家在深度学习与计算机视觉方向上掌握更多硬核的项目能力，有三AI秋季划准备了4个小组，每一个小组有8个方向，供大家深入学习。当你在某一个领域里做到极......
【星球知识卡片】模型量化的核心技术点有哪些，如何对其进行长期深入学习...
大家好，欢迎来到我们的星球知识小卡片专栏，本期给大家分享模型量化的核心技术点。作者&编辑|言有三1二值(1bit)量化二值量化是最高效率的量化方式，也可以称之为1bit量化，即将32位浮点数量化为1bit整型，非常适合FPGA等平台进行并行运算。二值量化模型以BinaryConnect和BinarizedNeu......
【星球知识卡片】模型量化的核心技术点有哪些，如何对其进行长期深入学习...
大家好，欢迎来到我们的星球知识小卡片专栏，本期给大家分享模型量化的核心技术点。作者&编辑|言有三1二值(1bit)量化二值量化是最高效率的量化方式，也可以称之为1bit量化，即将32位浮点数量化为1bit整型，非常适合FPGA等平台进行并行运算。二值量化模型以BinaryConnect和BinarizedNeu......
【星球知识卡片】模型剪枝有哪些关键技术，如何对其进行长期深入学习
大家好，欢迎来到我们的星球知识小卡片专栏，本期给大家分享模型剪枝的关键技术以及一些学习资料。作者&编辑|言有三1为什么要研究模型剪枝在真正研究模型剪枝之前，我们首先要知道为什么要做这件事，模型到底有多么冗余呢，以Google对大模型和移动端小模型的研究来说明这个问题，如下。2......
【星球知识卡片】移动端高效率的分组网络都发展到什么程度了？
大家好，欢迎来到我们的星球知识小卡片专栏，本期给大家分享分组卷积网络模型的发展现状。作者&编辑|言有三1卷积拆分的高效我们常见的卷积是一个二维的操作，即一个卷积核在图像上进行滑动。如果再考虑上各个通道间的信息融合，那么就是一个三维的操作，包含了通道，宽度，高度三个维度。如......
【重要】永久有效，内容持续更新，一对一随时答疑，真实企业项目研发，这才是学习CV的正确打开
对于学习，我们一直有几个观点。(1) 学习必须是系统和完整的。目前短视频时代最大的问题就是信息的碎片化，在不断更新的信息下我们很容易被带入浮躁的学习氛围中，但学习的目标是为了长期使用，那么必然需要系统性地掌握知识，往后才能够触类旁通。短期突击(如单个项目)或许可以通过测试，但......
k8s部署 elasticsearch7集群，其中一台节点报错无法域名解析：resolving host...
部署es7集群其中一个节点一直报错resolvinghost考虑有两点，要么是coredns组件出问题了，无法解析，要么是calico网络组件出问题了，首先我就去看网络组件了，果然发现问题，我这台机器有两个网卡，一个是enp9s0（172.16.2.30地址）,一个是enp11s0（172.16.2.25地址），我加入的节点是30机器，但是calico绑定......
【看表情包学Linux】系统下的文件操作 | 文件系统接口 | 系统调用与封装 | open,write
......
【转录】卡片笔记法：从卢曼卡片盒到ANTINET
在我们探讨卢曼卡片盒的使用成本时，我们发现真正的成本不仅在于时间投入，更在于个体面临的认知挑战。而当我们探讨ANTINET与双链笔记法的对比时，我们看到了信息组织方式的转变，从相对混沌的状态走向更加秩序化的分叉结构。然而，这种转变不仅限于信息的组织，更包括了我们笔记工具的选择：......

【星球知识卡片】模型蒸馏的核心技术点有哪些，如何对其进行长期深入学习...

相关文章

赞助商

阅读排行