蒸馏网络中的bias是指什么？ —— 论文《Distilling the Knowledge in a Neural Network》—— 知识蒸馏

时间：2024-03-11 09:22:52浏览次数：23

标签：Network 训练 Neural 网络 bias Student logits Teacher 蒸馏

论文地址：

https://arxiv.org/pdf/1503.02531.pdf

在蒸馏网络中会遇到手动调整bias的说法，但是这个bias在论文中又没有明细说明是怎么个bias，具体论文出处：

If this bias is increased by 3.5

查询Gemini，得到回答：

Assuming you're referring to the previous sentence about logits, here's the translation with "If this bias is increased by 3.5":

如果将此偏差增加 3.5，则非常负的 logits 可能仍然包含来自复杂模型所学习知识的有用信息，但这些信息可能更难解读或利用。

Here's a breakdown of the addition:

如果将此偏差增加 3.5 (If this bias is increased by 3.5): This translates directly, indicating we're considering the scenario where the bias towards negative logits is amplified.
Explanation of the impact:

By increasing the bias towards negative logits, the model will become even more confident in assigning very low probabilities to certain categories.
While the logits might still hold some information about the model's learnings, it might be harder to interpret or leverage that information due to the stronger bias.
This could potentially make the model less accurate or adaptable.

给出蒸馏网络中核心公式，温度控制的logits：

个体神经网络（CNN模型）：

CNN层 + 全连接层（输出的是logits） + softmax层（输出的是预测值概率P） + 交叉熵损失函数

在蒸馏网络中，Student网络是通过学习Teacher网络中的通过温度控制后的logits所形成的概率，也就是上面公式中的这个\(q_i\)，上面的这个\(q_i\)是Teacher网络的，我们也需要构建Student网络得到一个对应的\(z_i^{'}\)并根据此得到对应的\({q}_i^{'}\)，在得到Teacher网络的\(q_i\)和Student网络的\({q}_i^{'}\)后根据\(KL({q}_i^{'}, {q}_i)\)来训练Student网络。

可以知道，在训练Teacher网络时是不使用温度系数Temperature的，在训练好Teacher网络后千亿训练Student网络时才分别在这两个网络的logits上加入Temperature系数，在训练好Student网络后使用Student网络进行测试的时候在移除掉这个Temperature系数；但是对于某些情况，如训练Student网络是缺少某一类class数据的训练时，就会导致训练好的Student网络对这一类数据的表现performance不好，这时候就可以通过手动为没有Temperature系数的logits加入一个bias来对此进行修正，具体形式为\(z_{i}=(z_{i}+bias_{i})\)，注意，这里的i指的是class缺失的那个类。

注意，这里的手动给logits加bias并不是普遍操作，而是论文中单独讨论的一种情况，即在使用Teacher网络训练Student网络时缺少某一类数据的情况，这里这是纯学术research讨论之用；这里的讨论只是要说明使用Teacher网络训练Student网络时会具有Teacher网络本身训练时的所有类的信息，即使在使用Teacher网络训练Student网络时缺少这一类信息，其实Student网络也是可以学习到这个类的相关信息的，只不过这时需要手动调整Student网络测试时的logits的bias而已。

标签：Network,训练,Neural,网络,bias,Student,logits,Teacher,蒸馏
From： https://www.cnblogs.com/devilmaycry812839668/p/18065321

PARA第7部分：创建一个项目网络（PARA Part 7: Creating a Project Network)
PARA第7部分：创建一个项目网络（PARAPart7:CreatingaProjectNetwork)内容概要：你现在做的每个小项目，其实没那么重要。重要的是：把它们串联起来，形成一个项目网络，发挥出整体的威力。做项目规划时，有3点很重要：项目的规模（要拆小，有助于聚焦）、完成期限，这2点很容易界定；第三点是设定......
C++ Qt开发：QNetworkInterface网络接口组件
Qt是一个跨平台C++图形界面开发库，利用Qt可以快速开发跨平台窗体应用程序，在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置，实现图形化开发极大的方便了开发效率，本章将重点介绍如何运用QNetworkInterface组件实现查询详细的网络接口参数。在Qt网络编程中，QNetworkInterface是......
P2746 [USACO5.3] 校园网Network of Schools
原题链接题解把奶牛看成点，赠送列表关系看成有向边，这样这道题就成了对强连通分量缩点，然后找出这个新图中入度为零的点有几个，出度为零的点有几个code#include<bits/stdc++.h>usingnamespacestd;vector<int>G[105];intlen=0,cnt=0;intbelong[105]={0};intin[105]={0},......
R-Studio Network
数据恢复，第一次做这种题我们拿到的是一个zip文件，解压发现是一个001结尾的文件，应该是镜像的分卷表示格式我们把它放到7-zip中，发现大小只有76和12，而源文件有5个G,显示不对的，我们需要把原文件恢复出来，这里使用工具R-studioNetwork1、先加载镜像2、对镜像进行扫描，成功恢复......
网页浏览器Chrome开发者调试工具-Network(网络)
前言全局说明网页浏览器Chrome开发者调试工具-Network(网络)一、网页浏览器Chrome开发者调试工具-Network(网络)网络标签页是对网页请求过程的监视，这里可以看到网页链接发送了什么请求，接收到了什么内容。都可以直观的看到二、关闭标签页在标签页上右键，可以选择移除或移......
AT_arc083_b [ABC074D] Restoring Road Network 题解
难度虚高，建议评橙/黄qwq。首先我们发现这是一道最短路问题，且\(N\le300\)，于是采取floyd算法解决。具体地，我们分情况分类讨论。令我们当前枚举到的最短路径起点为\(i\)，终点为\(j\)，中转点为\(k\)，输入的矩阵为\(dis\)。若\(dis_{i,j}>dis_{i,k}+dis_{k,j}\)，则一定无......
文献笔记：LINE: Large-scale Information Network Embedding
https://arxiv.org/pdf/1503.03578v1.pdf本文研究了将非常大的信息网络嵌入到低维向量空间的问题，这在可视化、节点分类和链路预测等许多任务中都很有用。大多数现有的图形嵌入方法无法扩展到通常包含数百万个节点的现实世界信息网络。在本文中，我们提出了一种名为“LINE”的新型网......
Adaptive Universal Generalized PageRank Graph Neural Network
目录概符号说明GPR-GNN代码ChienE.,PengJ.,LiP.andMilenkovicO.Adaptiveuniversalgeneralizedpagerankgraphneuralnetwork.ICLR,2021.概GPR-GNN自适应地学习GNNlayersweights.符号说明\(G=(V,E)\),graphs;\(\mathbf{X}\in\mathbb{R}^{n\time......
Revisiting Heterophily For Graph Neural Networks
目录概符号说明HomophilymetricsPost-aggregationnodesimilaritymatrix代码LuanS.,HuaC.,LuQ.,ZhuJ.,ZhaoM.,ZhangS.,ChangX.andPrecupD.Revisitingheterophilyforgraphneuralnetworks.NIPS,2022.概介绍了一种新的graphhomophilymetrics.符......
STEP: 用于多变量时间序列预测的预训练增强时空图神经网络《Pre-training Enhanced Sp
2023年12月27日，看一篇老师给的论文。论文：Pre-trainingEnhancedSpatial-temporalGraphNeuralNetworkforMultivariateTimeSeriesForecasting或者是：Pre-trainingEnhancedSpatial-temporalGraphNeuralNetworkforMultivariateTimeSeriesForecastingGitHub：https:......

蒸馏网络中的bias是指什么？ —— 论文《Distilling the Knowledge in a Neural Network》—— 知识蒸馏

If this bias is increased by 3.5

相关文章

赞助商

阅读排行