模型轻量化——知识蒸馏（一）

时间：2024-08-04 16:55:21浏览次数：16

标签：蒸馏 nn self 轻量化 stride planes size 模型 out

写作目的：

帮助新手快速掌握人工智能中模型轻量化部分的内容。

知识蒸馏原理：

训练一个参数量较大的模型（教师模型），然后用其输出来帮助参数量较小的模型（学生模型）进行训练，以达到提升精度的目的。

代码实现：

模型构建

首先先使用pytorch创建一个简单的模型，该模型参数较少，当作学生模型

import torch
import torch.nn as nn
import torch.nn.functional as F

class SimpleCNN(nn.Module):
    def __init__(self, in_channels, img_size, num_classes):
        super(SimpleCNN, self).__init__()
        self.in_channels = in_channels
        self.img_size = img_size
        self.num_classes = num_classes
        self.conv1 = nn.Conv2d(in_channels, 16, 3, 1, 1)
        self.bn1 = nn.BatchNorm2d(16)
        self.conv2 = nn.Conv2d(16, 32, 3, 1, 1)
        self.bn2 = nn.BatchNorm2d(32)
        self.conv3 = nn.Conv2d(32, 64, 3, 1, 1)
        self.bn3 = nn.BatchNorm2d(64)
        self.fc1 = nn.Linear(64*self.img_size*self.img_size, self.num_classes)
        self.relu = nn.ReLU()
 
    def forward(self, x):
        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu(x)
        x = self.conv2(x)
        x = self.bn2(x)
        x = self.relu(x)
        x = self.conv3(x)
        x = self.bn3(x)
        x = self.relu(x)
        x = x.view(x.size(0),-1)
        x = self.fc1(x)
        return x

然后创建教师模型，这里采用resnet的源码

'''ResNet in PyTorch.

For Pre-activation ResNet, see 'preact_resnet.py'.

Reference:
[1] Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun
    Deep Residual Learning for Image Recognition. arXiv:1512.03385
'''
import torch
import torch.nn as nn
import torch.nn.functional as F

class BasicBlock(nn.Module):
    expansion = 1

    def __init__(self, in_planes, planes, stride=1):
        super(BasicBlock, self).__init__()
        self.conv1 = nn.Conv2d(in_planes, planes, kernel_size=3, stride=stride, padding=1, bias=False)
        self.bn1 = nn.BatchNorm2d(planes)
        self.conv2 = nn.Conv2d(planes, planes, kernel_size=3, stride=1, padding=1, bias=False)
        self.bn2 = nn.BatchNorm2d(planes)

        self.shortcut = nn.Sequential()
        if stride != 1 or in_planes != self.expansion*planes:
            self.shortcut = nn.Sequential(
                nn.Conv2d(in_planes, self.expansion*planes, kernel_size=1, stride=stride, bias=False),
                nn.BatchNorm2d(self.expansion*planes)
            )

    def forward(self, x):
        out = F.relu(self.bn1(self.conv1(x)))
        out = self.bn2(self.conv2(out))
        out += self.shortcut(x)
        out = F.relu(out)
        return out


class Bottleneck(nn.Module):
    expansion = 4

    def __init__(self, in_planes, planes, stride=1):
        super(Bottleneck, self).__init__()
        self.conv1 = nn.Conv2d(in_planes, planes, kernel_size=1, bias=False)
        self.bn1 = nn.BatchNorm2d(planes)
        self.conv2 = nn.Conv2d(planes, planes, kernel_size=3, stride=stride, padding=1, bias=False)
        self.bn2 = nn.BatchNorm2d(planes)
        self.conv3 = nn.Conv2d(planes, self.expansion*planes, kernel_size=1, bias=False)
        self.bn3 = nn.BatchNorm2d(self.expansion*planes)

        self.shortcut = nn.Sequential()
        if stride != 1 or in_planes != self.expansion*planes:
            self.shortcut = nn.Sequential(
                nn.Conv2d(in_planes, self.expansion*planes, kernel_size=1, stride=stride, bias=False),
                nn.BatchNorm2d(self.expansion*planes)
            )

    def forward(self, x):
        out = F.relu(self.bn1(self.conv1(x)))
        out = F.relu(self.bn2(self.conv2(out)))
        out = self.bn3(self.conv3(out))
        out += self.shortcut(x)
        out = F.relu(out)
        return out


class ResNet(nn.Module):
    def __init__(self, block, num_blocks, num_classes):
        super(ResNet, self).__init__()
        self.in_planes = 64

        self.conv1 = nn.Conv2d(3, 64, kernel_size=3, stride=1, padding=1, bias=False)
        self.bn1 = nn.BatchNorm2d(64)
        self.layer1 = self._make_layer(block, 64, num_blocks[0]

标签：蒸馏,nn,self,轻量化,stride,planes,size,模型,out
From： https://blog.csdn.net/2402_86622916/article/details/140908121

6-2训练模型的三种方法
Pytorch通常需要用户编写自定义训练循环，训练循环的代码风格因人而异。有三类典型的训练循环代码风格：脚本形式训练循环，函数形式训练循环，类型是训练循环。下面以minis数据集的多分类模型的训练为例，演示这3种训练模型的风格。importtorchimporttorchkerasprint('torch.__ve......
OpenAI Function Call大模型调用单个多个agent案例
参考：https://platform.deepseek.com/api-docs/zh-cn/function_callinghttps://blog.csdn.net/qq_31095905/article/details/139143778https://blog.csdn.net/jacbo/article/details/136278619##官方案例https://cookbook.openai.com/examples/how_to_call_functions_wi......
基于大预言模型的AI逻辑推理#AI夏令营 #Datawhale #夏令营
这是基于第二届世界科学智能大赛逻辑推理赛道：复杂推理能力评估(点击跳转赛事官网)的一篇从0基础入门AI的实践课，适合于零基础小白，本篇文章是我自己的学习笔记，供大家参考1.大语言模型介绍大语言模型的概念大语言模型（英文：LargeLanguageModel，缩写LLM），是一种人工智能模型，旨在理......
【大模型实战篇】从零构建基座大模型项目推介
1.背景介绍最近一直在跟进大模型相关领域知识的学习，大模型的学习需要两条路并进，理论和实践。理论知识的学习，比如说对当前大模型的深度学习架构、不同基座大模型之间的架构对比分析（主流的就是GPT系列、LLama系列、Claude系列）、涉及的细分模块组成及功能等，但更重要的是对......
【大模型实战篇】搭建本地的隐私计算知识问答系统“密答”
1.背景介绍在之前分享的文章《基于开源大模型的问答系统本地部署实战教程》中，我们介绍了基于ollama实现本地问答系统的部署和使用。本文将基于ollama进一步实现本地垂直领域的问答系统搭建。ollama作为大模型的运行框架，可以提供大模型的使用接口，方便......
textx 模型的类型检查
我正在尝试使用python的textx模块来解释语法的语言原型。我正在创建一个像这样的模型：fromtextximportmetamodel_from_strfunl_grammar="""Model:statement*=Statement;Statement:FunctionDefinition|Function;FunctionDefinition:name=ID......
Spark MLlib模型—决策树系列算法
文章目录SparkMLlib模型—决策树系列算法决策树系列算法随机森林（RandomForest）GBDT(Gradient-boostedDecisionTrees)总结SparkMLlib模型—决策树系列算法前面我们重点介绍了机器学习中的特征工程，以及SparkMLlib框架支持的特征处理函数。基于线......
LLM大模型：推理优化-模型int8量化
前面介绍的推理优化方法都有缺陷：knowledgedistillation：需要样本数据训练student，同时要大量算力更新student参数vLLM：通过pageattention，减少显存浪费，充分利用碎片化的显存，并未减少算力以上两种推理优化的方式都有缺陷，为了弥补上述缺陷，需要新的推理优化方式！tr......
大模型网信办备案全网最详细说明（附附件）
本文共分为以下几个章节一、大模型算法备案的强制性二、生成式人工智能(大语言模型)安全评估要点三、大模型备案必备材料+重点说明四、算法备案填报流程五、大模型备案时间成本对比六、备案建议附录、过程性材料一、大模型算法备案的强制性1、强制要求备案（1）《办法》......
灰狼优化算法（GWO）与长短期记忆网络（LSTM）结合的预测模型（GWO-LSTM）及其Python和MATLAB实现
####一、背景在现代数据科学和人工智能领域，预测模型的准确性和效率是研究者和工程师不断追求的目标，尤其是在时间序列预测、金融市场分析、气象预测等领域。长短期记忆（LSTM）网络是一种解决传统递归神经网络（RNN）在长序列学习中存在的梯度消失和爆炸问题的有效模型。LSTM能够保持......

模型轻量化——知识蒸馏（一）

写作目的：

知识蒸馏原理：

代码实现：

模型构建

相关文章

赞助商

阅读排行